20190520 빅데이터의 이해 및 활용 - 군집분석
1. 군집분석
- 일련의 관측값들을 여러 개의 부분집합들로 할당하여 나누는 것.
- 각 집합별 특성을 파악하여 전체 자료 구조에 대한 이해를 높임
- 이 때, 이 부분집합들을 군집(cluster)라 함.
- 대표적인 비지도학습(unsupervised learning)의 일종
2. 군집분석 vs 분류분석
1) 군집분석
- 범주에 대한 사전정보가 없는 경우
- 모든 변수가 독립변수
- 군집분석은 목표변수(반응변수)의 부재로 인하여 명확한 평가가 어려움
2) 분류분석
- 범주에 대한 사전정보가 존재
- 독립변수와 (범주형)반응변수
- 분류분석은 평가가 비교적 명확함
3. 군집분석의 원리
- 각 군집내 개체들은 서로 유사하도록
- 서로 다른 군집간에는 이질성이 크도록
4. K-means Clustering 알고리즘
1) K=3 으로 설정
2) 자료의 포인트에 3개를 넣고
3) 3개의 부분으로 나눔
4) 다시 각 부분마다 평균을 계산함
5) 점이랑 중심위치랑 거리 계산 후 위치 조정
6) 각각의 포인트의 거리를 계산
아래의 링크에 자세한 설명 되어 있음
https://www.youtube.com/watch?v=IuRb3y8qKX4&t=3m10s
5. K-means Clustering
-> 이상치에 민감하다 -> 그래서 median을 사용하기도 함
-> 연속형 자료에 적용
-> 범주형 자료에는 다른 거리재는 방법 사용(클러스터링에서는 유클리드 거리 측정을 보통 사용)
'빅데이터 분석 > 빅데이터 분석 학습' 카테고리의 다른 글
빅데이터 분석과 데이터베이스 이론 (0) | 2020.08.25 |
---|---|
빅데이터의 이해 및 활용(빅데이터의 저장) (0) | 2019.06.09 |
빅데이터 이해 및 활용 정리 / 가설과 추론 전까지 (0) | 2019.06.06 |
빅데이터 분석 - 추천 시스템 (0) | 2019.05.20 |
20190513 빅데이터 이해 및 활용 - (2) (0) | 2019.05.13 |
20190513 빅데이터 이해 및 활용 (0) | 2019.05.13 |
20190408 빅데이터 분석 이해 - 통계 기초 (0) | 2019.04.08 |
빅데이터 이해 및 활용 20190401 (0) | 2019.04.01 |
최근댓글