츄르사려고 코딩하는 코집사입니다.
1. 거리 - 연속형 변수일 경우
- 유클리디안 거리
- 표준화 거리
- 마할라노비스 거리
- 체비셰프 거리
- 맨하탄 거리
- 캔버라 거리
- 민코우스키 거리
2. 거리 - 범주형 변수의 경우
- 자카드 거리
- 자카드 계수
- 코사인 거리
3. 계층적 군집분석
- n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
- 계층적 군집을 형성하는 방법은 합병형 방법과 분리형 방법이 있음.
4. 최단연결법
- 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
5. 최장연결법
- 최장거리를 거리로 계산하여 거리행렬을 수정하는 방법
6. 평균연결법
- 평균을 거리로 계산하여 거리행렬을 수정하는 방법
7. 와드연결법
- 군집내 편차들의 제곱합을 고려한 방법
- 군집 간 정보의 손실을 최소화하기 위해 군집화 진행
8. 군집화
- 덴드로그램을 사용하여 군집화
9. K-Means Clustering
- 원하는 군집의 개수와 초기값들을 정해 seed 중심으로 군집 형성
- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
- 각 군집의 seed 값을 다시 계산
- 연속형 변수에 활용 가능
- 그리디 알고리즘 중 하나
- 잡음이나 이상값의 영향을 많이 받음
10. SOM(Self Organizing Map)
- 자가조직화지도 알고리즘
- 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고 함.
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬
- 입력 변수의 개수와 동일하게 뉴런 수 존재
- fully-connected로 되어 있음
- 경쟁학습방법
- 입력층, 2차원 격자 형태의 경쟁층
- 비지도 학습
11. 연관분석
1) 연관규칙분석
- 연관성 분석은 흔히 장바구니분석, 서열분석이라고 부름
12. 연관규칙의 측도
1) 지지도(support)
- 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율
- 지지도 = P(A and B) = A와 B가 동시에 포함된 거래수 / 전체 거래수
2) 신뢰도(confidence)
- 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
- 연관성의 정도를 파악할 수 있음
- 신뢰도 = P(A and B) / P(A)
3) 향상도(Lift)
- A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가비
- 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.
- 향상도 = P(A and B) / P(A)P(B)
13. Apriori 알고리즘
- 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것
14. FP-Growth 알고리즘
- 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법
- Apriori 알고리즘의 약점을 보완하기 위해 고안된 것
- 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석 가능
15. 군집분석
- 이질적인 모집단을 세분화하는 기능
16. 1/e
- 0.368...~~~
17. 의사결정나무모형
- 의사결정나무모형은 하향식 기법 사용
- 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값 선택
18. 지니계수 구하는 법
- A : good 50 bad 50
- B : good 10 bad 40
- 1 - (10/50)^2 - (40/50)^2
19. 이익도표 %Captured Response
- 전체에서 해당집단을 분리해내는 비율
- 해당집단에서 목표변수의 특정범주 빈도 / 전체 목표변수의 특정범주 빈도 * 100
20. 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
21. F1
- 2 * ((precision * recall) / (prcision + recall))
22. softmax함수
- 다양한 활성함수 중 출력값이 여러 개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수
23. 와드연결법
- 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법
24. 마할라노비스 거리
- 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리
25. 집단 내 제곱합 그래프
- K-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해줘야 함
- 군집수를 정하는 데 활용할 수 있는 그래프
26. 밀도기반 군집
- DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법
27. inspect()
- apriori 함수를 활용해 생성한 연관규칙을 볼 수 있는 함수
28. 향상도 곡선
- 분류분석의 모형평가 방법
- 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
29. 나이브 베이지안 분류
- 베이즈 정리와 특징에 대한 조건부 독립을 가설로하는 알고리즘
- 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘
30. 코사인 유사도
- 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하는 유사성 측도
31. EM알고리즘
- k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도 추정에 사용되는 알고리즘
32. 실루엣
- 군집분석의 품질을 정량적으로 평가하는 대표적인 지표
- 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표
33. BMU
- SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어
34. 데이터 변환
- KDD 분석 절차 중 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정
35. 분석 과제 주요 관리 영역
- Data Size
- Data Complexity
- Speed
- Analytic&Complexity
- Accuracy&Precision
36. 데이터 프레임
- 테이블로 된 데이터 구조로 리스트로 표현
37. 이산형 확률분포
- 베르누이 확률분포
- 포아송 분포
38. 인과관계
- 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계
39. 상관관계
- 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없는 관계
40. 하향식 접근 방법
- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식
41. 부스팅
- 앙상블 기법 중 부트스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
42. 차분
- 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법
- 비정상시계열을 정상시계열로 바꿔줌
43.
'자격증 > ADSP' 카테고리의 다른 글
데이터분석 준전문가 ADSP 27회 합격 후기 (0) | 2020.12.22 |
---|---|
데이터분석 준전문가 ADSP 27회 후기 및 주관식 기출문제 (0) | 2020.11.23 |
ADSP 자격증 필기 요약 (0) | 2020.11.21 |
최근댓글