반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.

 


1. 거리 - 연속형 변수일 경우

- 유클리디안 거리

- 표준화 거리

- 마할라노비스 거리

- 체비셰프 거리

- 맨하탄 거리

- 캔버라 거리

- 민코우스키 거리

 

2. 거리 - 범주형 변수의 경우

- 자카드 거리

- 자카드 계수

- 코사인 거리

 

3. 계층적 군집분석

- n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법

- 계층적 군집을 형성하는 방법은 합병형 방법분리형 방법이 있음.

 

4. 최단연결법

- 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성

 

5. 최장연결법

- 최장거리를 거리로 계산하여 거리행렬을 수정하는 방법

 

6. 평균연결법

- 평균을 거리로 계산하여 거리행렬을 수정하는 방법

 

7. 와드연결법

- 군집내 편차들의 제곱합을 고려한 방법

- 군집 간 정보의 손실을 최소화하기 위해 군집화 진행

 

8. 군집화

- 덴드로그램을 사용하여 군집화

 

9. K-Means Clustering

- 원하는 군집의 개수와 초기값들을 정해 seed 중심으로 군집 형성

- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

- 각 군집의 seed 값을 다시 계산

- 연속형 변수에 활용 가능

- 그리디 알고리즘 중 하나

- 잡음이나 이상값의 영향을 많이 받음

 

10. SOM(Self Organizing Map)

- 자가조직화지도 알고리즘

- 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고 함.

- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬

- 입력 변수의 개수와 동일하게 뉴런 수 존재

- fully-connected로 되어 있음

- 경쟁학습방법

- 입력층, 2차원 격자 형태의 경쟁층

- 비지도 학습

 

11. 연관분석

1) 연관규칙분석

- 연관성 분석은 흔히 장바구니분석, 서열분석이라고 부름

 

12. 연관규칙의 측도

1) 지지도(support)

- 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율

- 지지도 = P(A and B) = A와 B가 동시에 포함된 거래수 / 전체 거래수

 

2) 신뢰도(confidence)

- 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률

- 연관성의 정도를 파악할 수 있음

- 신뢰도 = P(A and B) / P(A)

 

3) 향상도(Lift)

- A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가비

- 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.

- 향상도 = P(A and B) / P(A)P(B)

 

13. Apriori 알고리즘

- 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것

 

14. FP-Growth 알고리즘

- 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법

- Apriori 알고리즘의 약점을 보완하기 위해 고안된 것

- 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석 가능

 

15. 군집분석

- 이질적인 모집단을 세분화하는 기능

 

16. 1/e

- 0.368...~~~

 

17. 의사결정나무모형

- 의사결정나무모형은 하향식 기법 사용

- 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값 선택

 

18. 지니계수 구하는 법

- A : good 50 bad 50

- B : good 10 bad 40

- 1 - (10/50)^2 - (40/50)^2

 

19. 이익도표 %Captured Response

- 전체에서 해당집단을 분리해내는 비율

- 해당집단에서 목표변수의 특정범주 빈도 / 전체 목표변수의 특정범주 빈도 * 100

 

20. 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법

 

21. F1

- 2 * ((precision * recall) / (prcision + recall))

 

22. softmax함수

- 다양한 활성함수 중 출력값이 여러 개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수

 

23. 와드연결법

- 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법

 

24. 마할라노비스 거리

- 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리

 

25. 집단 내 제곱합 그래프

- K-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해줘야 함

- 군집수를 정하는 데 활용할 수 있는 그래프

 

26. 밀도기반 군집

- DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법

 

27. inspect()

- apriori 함수를 활용해 생성한 연관규칙을 볼 수 있는 함수

 

28. 향상도 곡선

- 분류분석의 모형평가 방법

- 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

 

29. 나이브 베이지안 분류

- 베이즈 정리와 특징에 대한 조건부 독립을 가설로하는 알고리즘

- 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘

 

30. 코사인 유사도

- 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하는 유사성 측도

 

31. EM알고리즘

- k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도 추정에 사용되는 알고리즘

 

32. 실루엣

- 군집분석의 품질을 정량적으로 평가하는 대표적인 지표

- 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표

 

33. BMU

- SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어

 

34. 데이터 변환

- KDD 분석 절차 중 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정

 

35. 분석 과제 주요 관리 영역

- Data Size

- Data Complexity

- Speed

- Analytic&Complexity

- Accuracy&Precision

 

36. 데이터 프레임

- 테이블로 된 데이터 구조로 리스트로 표현

 

37. 이산형 확률분포

- 베르누이 확률분포

- 포아송 분포

 

38. 인과관계

- 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계

 

39. 상관관계

- 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없는 관계

 

40. 하향식 접근 방법

- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식

 

41. 부스팅

- 앙상블 기법 중 부트스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법

 

42. 차분

- 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법

- 비정상시계열을 정상시계열로 바꿔줌

 

43. 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기