중심 경향성
- 중심을 나타내는 방법
- 데이터의 중심위치를 나타낸다.
평균 : 자료의 값을 다 더해서 갯수로 나눈 것
- 평균의 단점은 자료에 이상치가 많으면 제대로 중심의 위치를 반영하지 못한다.
- 데이터의 값을 데이터 포인트의 개수로 나눈 값.
- 이상치에 영향을 많이 받음.
중앙값(중위수) : 자료를 크기 순으로 정렬했을 떄의 중앙에 있는 값.
- 자료의 갯수가 홀수개이면 중앙값은 쉽게 찾을 수 있음 가운데 위치하는것
- 하지만, 자료의 갯수가 짝수개면 양쪽을 더해 평균을 내면 된다.
최빈값 : 데이터에서 가장 자주 나오는 값
분위수 : 데이터의 특정 백분위보다 낮은 값.
전체 갯수 * 퍼센트
산포도 : 데이터가 얼마나 퍼져 있는지를 나타냄
범위 : 최댓값과 최솟값의 차이-> max(x) - min(x)를 해도 되고, 정렬 후, x[-1] - x[0]을 해도 된다.
x[-1]은 array에서 제일 오른쪽 x[0]은 array에서 제일 왼쪽
분산 : 평균으로부터 자료가 어떻게 퍼져있는지를 나타냄
평균으로부터 얼마나 떨어져있는지를 나타낸 것
i=1부터 n까지의합(xi - hat(x) ) ^2 / n-1
위의 식에서 제곱을 하는 이유는 제곱이 없으면 합이 항상 0이 된다.
단위를 맞춰서 보기 위해 표준편차를 사용을함 S=루트S^2
왜 n-1이라면
자유도의 개념도 있고,
불편성을 만족하기 떄문에 n-1로 함
사분위 범위(IQR) : 상위 25%에 해당하는 값과 하위 25%에 해당되는 값의 차이.
75범위에서 25범위를 뺀것
박스플롯에서 박스는 IQR로 불리는데 IQR+1.5XIQR을 하면 위로
IQR - 1.5XIQR은 아래로
상관계수 : 두 변수의 선형적인 관계를 나타냄.
공분산에서 각각의 표준편차를 나눠 계산함.
S12/S1*S2 = r
중요 : 인관관계를 나타내지는 않음
r = s12/(xstd*ystd)
r
자료 갯수
자료 평균
자료 dev 계산
dev 제곱 계산
분산 = sum(ydev2) / n-1
표준편차는 sqrt(분산)
공분산 : 두 변수가 각각의 평균에서 얼마나 떨어져 있는지를 나타냄.
i=1 n<=n (xi - xhat)(Yi-Yhat) / n-1
내적계산
sum([xi*yi for xi, yi in zip(xdev,ydev)]) / (n-1)
박스 플롯 공부하기
- 선은 50
'빅데이터 분석 > 빅데이터 분석 학습' 카테고리의 다른 글
빅데이터의 이해 및 활용(빅데이터의 저장) (0) | 2019.06.09 |
---|---|
빅데이터 이해 및 활용 정리 / 가설과 추론 전까지 (0) | 2019.06.06 |
빅데이터 분석 - 추천 시스템 (0) | 2019.05.20 |
20190520 빅데이터의 이해 및 활용 - 군집분석 (0) | 2019.05.20 |
20190513 빅데이터 이해 및 활용 - (2) (0) | 2019.05.13 |
20190513 빅데이터 이해 및 활용 (0) | 2019.05.13 |
빅데이터 이해 및 활용 20190401 (0) | 2019.04.01 |
BEPS R을 이용한 빅데이터 분석 (0) | 2019.03.05 |
최근댓글