반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ① 보러가기


1. KNN 분류

- 최근접 이웃 분류

- 임의의 입력 텍스트를 정의도니 카테고리로 분류한 데이터들과 유사도를 측정하고 가장 비슷한 카테고리로 입력 텍스트를 분류

- 유클리디안 거리를 측정하여 분류

 

1) 장점

- 간단하고 효과적으로 입력 값 분류

- 데이터에 대한 기본적인 분포 가정 없음

- 학습 과정이 빠름

 

2) 단점

- 모델을 생성하지 않기 때문에 클래스 간의 관계를 이해하는 능력이 제약

- 적절한 K의 선택이 필요

- 분류 시간이 오래 걸림

 

2. 의사결정나무

- 가장 널리 사용되는 머신러닝에서 대표적인 지도 학습 방법

- 의사결정 트리 모델을 생성하는 입력 데이터에 대한 값을 예측하는 방법

- 분류함수를 의사결정 규칙으로 표현할 때 타원, 직선, 사각형을 이용해 나무형태로 그려서 분석

 

1) 장점

- 분류 결과가 트리 구조라 쉽게 이해 가능

- 수치 자료와 범주 자료에 모두 적용 가능

- 일부 명제가 손상되더라도 안정적으로 동작

- 대규모 데이터셋에서도 동작

 

2) 단점

- 각 노드에서의 부분 최적값에 빠지기 쉬움

- 분류 정확도가 떨어지며 Training 데이터의 개수, 노드 선정에 따라 모델이 달라짐

 

3. SVM(Support Vector Machine, 서포트 벡터 머신)

- 기계학습의 한 종류로 패턴인식, 자료분석을 위한 지도학습 모델

- 이진 분류를 위한 기법 중 하나로 N 차원의 공간을 N-1 차원으로 나눌 수 있는 초평면을 찾는 분류기법

- 비확률적 선형분류모델을 만듦

 

1) 장점

- 다차원 벡터 공간에서 효과적

- 훈련 신경망 기법에 비하여 과적합 정도가 덜함

- 분류문제나 예측문제에 모두 사용 가능

 

2) 단점

- 커널과 모델 파라미터를 조절하기 위한 테스트를 여러번 해서 최적화 모형을 만들기에 시간이 오래 걸림

- 결과에 대한 설명력이 떨어짐

 

4. 나이브 베이즈 분류

- 베이지안 기법 기반의 분류기

- 훈련 데이터를 활용해서 특징 값이 제공하는 증거를 기반으로 결과가 관측될 확률을 계산하는 것

- 확률 분류기의 일종

- 텍스트 분류에 있어 정확도가 좋다는 특징을 가지고 있음

 

1) 장점

- 데이터셋이 클 경우 효과적으로 학습이 가능하고 간단하고 빠르며 정확도가 높은 모델

- 잡음과 누락데이터를 잘 처리

- 예측을 위한 추정확률을 쉽게 얻을 수 있음

 

2) 단점

- 모든 특징이 동등하고 중요하며 독립이라는 가정을 하지만 이 가정이 잘못된 경우가 있음

- 수치 특지이 많은 데이터셋에서는 이상적이지 않고 feature간 독립의 조건을 만족하기 어려움

 

5. 분석방법론

1) 폭포수모델

- 개발 전 과정을 나누어서 체게적이고 순차적으로 접근하는 방식

- 단계 : 요구사항분석 - 설계 - 구현 - 테스트 - 유지보수

- 장점 : 체계적 문서화가 가능해 프로젝트 진행을 명확하게 알 수 있음

- 단점 : 단계적으로 이루어지므로 앞 단계가 완료되어야 다음 단계로 넘어갈 수 있음

 

2) 나선형모델

- 반복을 통해서 점증적으로 개발하는 방법

- 프로젝트를 수행할 때 위험을 관리하고 최소화하는 것

- 단계 : 목표설정 - 위험분석 - 구현 및 테스트 - 고객평가 및 다음 단계 수립의 과정

- 단점 : 복잡성으로 인한 프로젝트 관리가 어렵고 개발 장기화 가능성 존재

 

3) 프로토타입모델

- 사용자의 요구사항을 충분히분석하고자 하는 목적으로 시스템 일부분을 구현한 후 다음 요구사항을 반영하는 점진적 개발 방법

- 단계 : 계획수립 - 요구사항 분석 및 정의 - 프로토타입 개발 - 프로토타입 평가 - 구현 - 인수

- 장점 : 사용자 요구사항을 도출하는 것이 용이

 

6. 빅데이터분석 처리 과정

- 빅데이터 수집 -> 빅데이터 저장 -> 빅데이터 처리 -> 빅데이터 분석 -> 지식시각화와 빅데이터이용 -> 폐기

 

7. 지도학습(Supervised Learning)

- 훈련 데이터를 통해 하나의 함수를 찾아내기 위한 머신러닝 기법

- 예측하고자 하는 반응변수를 이용해서 새로운 데이터의 목적 변숫값을 추정하거나 분류하는 것

 

8. 로지스틱 회귀분석

- 독립변수와 종속변수의 관계를 함수로 나타내고 향후 예측모델에 사용하기 위한 것

- 종속변수가 범주형으로 주어진 자료에 대해 분류를 하는 기법

 

9. 가설검정의 오류

1) 제 1종 오류

- 유의수준이라 할 수 있음

- 귀무가설이 참인데 참인 귀무가설을 기각하면서 생기는 오류

 

2) 제 2종 오류

- 귀무가설이 거짓인데 거짓인 귀무가설을 기각하지 않으면서 생기는 오류

 

10. p-value

- p-value가 유의수준 a보다 작으면 귀무가설 기각하고 대립가설 채택

- p-value가 유의수준 a보다 크면 대립가설 기각하고 귀무가설 채택

 

11. 데이터에 대한 품질 요소

1) 정확성

- 데이터가 분석목적에 맞도록 제공되어야 함

 

2) 완전성

- 필요한 데이터를 식별

 

3) 적시성

- 데이터 활용 시점의 활용도 향상을 위함

 

4) 일관성

- 사용 목적에 따라 일관되어 있는가를 평가

 

12. 데이터 비식별화 방법

1) 가명 처리 방법

2) 개인정보의 데이터 총합이나 평균을 사용하는 총계 처리 방법

3) 변숫값을 제거하는 데이터값 제거 방법

4) 데이터값을 범주화하여 명확한 값으로 대체하는 범주화 방법

5) 개인 식별에 유의한 값이 보이지 않도록 처리하는 데이터마스킹 방법

 

13. CHAID 알고리즘

- 카이제곱이나 F검정을 이용해 분리를 수행하는 알고리즘

- 관측도수와 기대도수 차이가 커질수록 순수도는 높아지고 좋은 분리가 된다.

- 카이제곱 통계량이 가장 큰 예측 변수를 이용해서 자식마디를 형성

 

14. CART 알고리즘

- 지니지수를 이용해서 분리를 수행하는 알고리즘

- 지니점수 0에서 1 사이로 1은 완벽한 순수의 노드를 나타냄

- 지니지수는 각 마디에서의 불순도나 다양도 측정

 

15. C4.5 알고리즘

- 엔트로피지수는 다항분포에서 우도비 검정통계량을 사용하고 부모마디의 엔트로피에서 자식마디의 엔트로피를 차감해서 구할 수 있음

 

16. 홀드아웃방법

- 모형의 학습 및 구축을 위한 훈련용 자료와 성과 평가를 위한 검증용 자료로 나누어서 교차검증을 실시하는 방법

- 검증용 자료의 결과는 모형에 영향을 주지 않고 성과 측정에만 사용

 

17. 교차검증방법

- 반복적으로 성과를 측정하여 결과를 펴균한 것으로 k-fold 교차검증은 전체 데이터를 사이즈가 같은 k개의 하부집합으로 나눔

- 이때 k번째의 하부 집합을 검증용 자료로, 나머지 k-1개의 하부 집합을 훈련용 자료로 사용해서 k번 반복 측정 결과의 평균을 내어 최종 평가 결과로 사용하는 방법

 

18. 부트스트랩방법

- 훈련용 자료를 반복 재선정하는 것으로 복원추출에 기반한 방법

- 전체 데이터양이 많지 않은 경우 적합한 방법

 

19. K-means Clustering

- 군집분석에서 가장 많이 활용되는 방법

- 군집 안의 중심과 해당 군집의 각 객체 간 거리의 합이 최소화 되는 것

- 군집 간 분리도 최대화 원리는 각 군집의 중심 간의 거리 합이 최대화가 되는 것

- 원하는 군집 수만큼 초기값을 지정하고 각 개체를 가까운 초기값에 할당하여 군집 형성

- 각 군집의 평균을 재계산하여 초기값을 갱신하고 갱신된 값에 대해서 할당 과정을 반복하여 k개의 최종 군집 형성

 

1) 장점

- 단순하며 빠른 속도의 계산

- 계층적 군집보다 많은 양의 자료를 다룰 수 있음

- 평균 등 거리 계산에 기반하므로 모든 변수가 연속형

 

2) 단점

- 잡음이나 이상값에 영향을 받음

- 크러스터의 모양을 가정하고 있어 적용범위가 제한적

 

20. 혼합분포군집

- 확률분포를 도입해서 군집을 수행하는 방법

- 군집을 몇 개의 모수로 표현할 수 있으며 서로 다른 크기나 모양의 군집 분류 가능

 

21. 자기조직화지도(SOM, Self Organizing Map)

- 입력데이터로 학습해서 일관성 있게 변화한다는 자기조직화에 기반을 둔 것

- 다차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하고 지도의 형태로 형상화하는 것

- 수행 속도가 빨라 실시간 학습 처리가 가능

- 저차원의 지도 형태로 형상화되어 시각화에 유용

- 음성인식이나 패턴발견, 이미지 분석에 활용

 

22. 연관분석

- 군집분석에 의해 나누어진 클러스트를 대상으로 각 그룹에 대한 특성을 분석하기 위한 것

 

23. 연관관계

- 유사한 것은 군집으로 그룹화하여 각 그룹별 특성을 파악하고 빅데이터에서 유사한 클러스트를 묶어서 분석하면 더 효율적

 

24. 연관규칙의 측정지표

1) 지지도

- 지지도 : A, B 동시에 포함된 거래수 / 전체거래수

 

2) 신뢰도

- 신뢰도 = A,B 동시에 포함된 거래수 / A를 포함하는 전체거래수

 

3) 향상도

- 향상도 = A,B 동시에 포함된 거래수 / A를 포함하는 거래수 X B를 포함하는 거래수

 

25. 데이터 시각화 단계

- 벤프라이의 데이터 시각화 7단계

1) 데이터 획득단계

2) 분석단계

3) 선별단계

4) 데이터마이닝단계

5) 표현단계

6) 개선단계

7) 상호작용단계

 

- 일반적으로 이용되는 데이터 시각화 3단계

1) 탐색단계

2) 분석단계

3) 활용단계

 

26. 데이터 시각화

- 데이터 자체를 시각적으로 표현하는 것

- 마인드맵, 뉴스표현, 데이터표현, 관계들의 표현, 웹사이트들의 표현, 기사와 리소스들, 툴과 서비스 등

 

27. 정보시각화

- 막대그래프, 점그래프, 누적막대그래프와 같은 시간시각화 방법

- 파이차트, 트리맵 등과 같은 분포시각화 방법

- 스캐터 플롯, 버블 차트와 같은 관계시각화 방법

- 히트맵, 스타차트와 같은 비교시각화

- 지도 매핑과 같은 공간시각화 방법

 

28. 정보디자인

- 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법

 

29. 인포그래픽

- 정보나 데이터, 지식을 시각적으로 표현한 것

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기