반응형

20190520 빅데이터의 이해 및 활용 - 군집분석

 

1. 군집분석

    - 일련의 관측값들을 여러 개의 부분집합들로 할당하여 나누는 것.

    - 각 집합별 특성을 파악하여 전체 자료 구조에 대한 이해를 높임

    - 이 때, 이 부분집합들을 군집(cluster)라 함.

    - 대표적인 비지도학습(unsupervised learning)의 일종

 

 

2. 군집분석 vs 분류분석

    1) 군집분석

        - 범주에 대한 사전정보가 없는 경우

        - 모든 변수가 독립변수

        - 군집분석은 목표변수(반응변수)의 부재로 인하여 명확한 평가가 어려움

 

    2) 분류분석

        - 범주에 대한 사전정보가 존재

        - 독립변수와 (범주형)반응변수

        - 분류분석은 평가가 비교적 명확함

 

 

3. 군집분석의 원리

    - 각 군집내 개체들은 서로 유사하도록

    - 서로 다른 군집간에는 이질성이 크도록

 

 

4. K-means Clustering 알고리즘

   1) K=3 으로 설정

   2) 자료의 포인트에 3개를 넣고

   3) 3개의 부분으로 나눔

   4) 다시 각 부분마다 평균을 계산함

   5) 점이랑 중심위치랑 거리 계산 후 위치 조정

   6) 각각의 포인트의 거리를 계산

아래의 링크에 자세한 설명 되어 있음

https://www.youtube.com/watch?v=IuRb3y8qKX4&t=3m10s

 

5. K-means Clustering

   -> 이상치에 민감하다 -> 그래서 median을 사용하기도 함

   -> 연속형 자료에 적용 

   -> 범주형 자료에는 다른 거리재는 방법 사용(클러스터링에서는 유클리드 거리 측정을 보통 사용)

   

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기