1. 평균
평균(Average)은 가장 기본적인 위치 추정 방법으로, 모든 값의 총합을 값의 개수로 나눈 값입니다. 모집단의 표본의 평균을 의미하는 라는 기호를 사용합니다.
2. 절사평균
절사평균(Trimmed Mean)은 평균을 ㅈ고ᅟᅳᆷ 변형한 것으로 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균입니다. 절사평균은 극단값의 영향을 제거합니다. 예를 들어, 회사에서 평균 연봉은 높다는 자료를 봤는데, 실제로 평균 연봉에 미치지 못한 경우가 많습니다. 그렇기에, 연봉이 가장 높은 사람과 가장 낮은 사람들의 연봉 값 P개를 삭제하고, 나머지의 연봉을 평균내어 사용하는 것입니다.
3. 가중평균
가중평균(Weighted average)은 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 것입니다. 가중치는 AI에서 데이터의 신뢰도나 중요도가 높은 데이터에 더 큰 가중치를 주고, 신뢰도나 중요하지 않은 데이터에 대해서는 가중치를 낮게 줍니다. 이의 원리처럼, 가중평균에도 적용됩니다.
4. 중간값
중간값(Median)은 한가운데에 위치하는 값이라고 합니다. 데이터의 개수가 짝수라면 그 중간값은 가운데에 있는 데이터 값의 평균입니다. 데이터에 매우 민감한 평균보다는 중간값이 많은 경우 위치 추정에 더 유리하다는 장점을 가지고 있습니다. 중간값은 가중 평균처럼 가중 중간값을 사용할 수 있습니다.
5. 편차
편차(deviation)는 관측값과 위치 추정값사이의 차이라고 합니다. 즉, 데이터 값과 평균의 차입니다.
6. 분산
분산(variance)은 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값입니다. n은 데이터 개수입니다. 분산은 제곱 편차의 평균이고 표준편차는 분산의 제곱근입니다. 분산은 특잇값과 극단값에 로버스트하지 않습니다. 즉, 특잇값에 민감합니다.
7. 표준편차
표준편차(standard deviation)는 분산의 제곱근입니다. 표준편차는 특잇값과 극단값에 로버스트하지 않습니다. 즉, 특잇값에 민감합니다.
8. 평균절대편차
평균절대편차(Mean Absolute Deviation)는 평균과의 편차의 절댓값의 평균입니다.
예로, {1, 4, 4} 데이터의 평균은 3이고, 중간값은 4입니다. 편차는 {-2, 1, 1}입니다. 편차의 절댓값은 {2, 1, 1}이며, 그 평균은 4/3으로 1.33이 됩니다.
9. 중위절대편차
중위절대편차(median absolute deviation, MAD)는 로버스트한 변위 추정값을 낼 수 있습니다. 중간값의 특징을 따라 극단값의 영향을 받지 않아 로버스트하다고 볼 수 있습니다.
'빅데이터 분석 > 빅데이터 분석 학습' 카테고리의 다른 글
[데이터 크롤링] 카카오 api를 활용한 서울 편의점 경위도 크롤링하기 with Python (62) | 2021.05.21 |
---|---|
엔트로피(Entropy) 머신러닝 통계 - 의사결정나무(Decision Tree) (0) | 2020.12.17 |
파이썬 크롤링을 이용한 주식매매동향 간략한 데이터 분석 (1) | 2020.11.28 |
인포그래픽과 빅데이터 시각화의 차이 (0) | 2020.09.09 |
빅데이터 분석과 데이터베이스 이론 (0) | 2020.08.25 |
빅데이터의 이해 및 활용(빅데이터의 저장) (0) | 2019.06.09 |
빅데이터 이해 및 활용 정리 / 가설과 추론 전까지 (0) | 2019.06.06 |
빅데이터 분석 - 추천 시스템 (0) | 2019.05.20 |
최근댓글