반응형

중심 경향성
- 중심을 나타내는 방법
- 데이터의 중심위치를 나타낸다.

평균 : 자료의 값을 다 더해서 갯수로 나눈 것
- 평균의 단점은 자료에 이상치가 많으면 제대로 중심의 위치를 반영하지 못한다.
- 데이터의 값을 데이터 포인트의 개수로 나눈 값.
- 이상치에 영향을 많이 받음.

중앙값(중위수) : 자료를 크기 순으로 정렬했을 떄의 중앙에 있는 값.
- 자료의 갯수가 홀수개이면 중앙값은 쉽게 찾을 수 있음 가운데 위치하는것
- 하지만, 자료의 갯수가 짝수개면 양쪽을 더해 평균을 내면 된다.

최빈값 : 데이터에서 가장 자주 나오는 값

분위수 :  데이터의 특정 백분위보다 낮은 값.
전체 갯수 * 퍼센트 

산포도 : 데이터가 얼마나 퍼져 있는지를 나타냄
범위 : 최댓값과 최솟값의 차이-> max(x) - min(x)를 해도 되고, 정렬 후, x[-1] - x[0]을 해도 된다.
x[-1]은 array에서 제일 오른쪽 x[0]은 array에서 제일 왼쪽

분산 : 평균으로부터 자료가 어떻게 퍼져있는지를 나타냄
        평균으로부터 얼마나 떨어져있는지를 나타낸 것
i=1부터 n까지의합(xi - hat(x) ) ^2 / n-1
위의 식에서 제곱을 하는 이유는 제곱이 없으면 합이 항상 0이 된다.
단위를 맞춰서 보기 위해 표준편차를 사용을함 S=루트S^2
왜 n-1이라면 
자유도의 개념도 있고,
불편성을 만족하기 떄문에 n-1로 함

사분위 범위(IQR) : 상위 25%에 해당하는 값과 하위 25%에 해당되는 값의 차이.
75범위에서 25범위를 뺀것
박스플롯에서 박스는 IQR로 불리는데 IQR+1.5XIQR을 하면 위로
IQR - 1.5XIQR은 아래로

상관계수 : 두 변수의 선형적인 관계를 나타냄.
공분산에서 각각의 표준편차를 나눠 계산함.
S12/S1*S2 = r
중요 : 인관관계를 나타내지는 않음
r = s12/(xstd*ystd)

r
자료 갯수
자료 평균
자료 dev 계산
dev 제곱 계산
분산 = sum(ydev2) / n-1
표준편차는 sqrt(분산)

공분산 : 두 변수가 각각의 평균에서 얼마나 떨어져 있는지를 나타냄.
i=1 n<=n (xi - xhat)(Yi-Yhat) / n-1
내적계산
sum([xi*yi for xi, yi in zip(xdev,ydev)]) / (n-1)






박스 플롯 공부하기
- 선은 50

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기