츄르사려고 코딩하는 코집사입니다.
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③ 보러가기
1. 빅데이터분석 주제 유형
분석대상(WHAT) - Known | 분석대상(WHAT) - UnKnown | |
분석방법(HOW) - Known | Optimization | Insight |
분석방법(HOW) - UnKnown | Solution | Discovery |
2. 요약변수
- 기본 정보를 aggregation한 변수로 세분화나 행동 예측이 가능
3. 파생변수
- 특정의미를 갖는 작위적 의미의 변수
4. reshape
- melt()와 cast()을 이용해 데이터를 재구성하거나 재정렬하기 위한 기법으로 밀집화된 데이터를 유연하게 생성해 줌
1) melt()
- 선택한 id 변수를 이용해 나머지 변수를 variable이란 이름의 데이터로 만드는 것
- 모델링할 때의 데이터 구조에 적합
2) cast()
- 원하는 형태와 함수를 이용해서 데이터를 요약
- 그래프를 시각화할 때의 데이터 구조에 적합
5. sqldf
- sqldf() 함수를 이용하여 데이터 조회를 실행
- SQL 명령이 주어지면 자동으로 스키마를 생성하고 데이터를 테이블로 로드한 뒤 SQL문을 수행하며 SQL 실행 결과를 다시 R로 로드하는 것
- 데이터를 불러올 때 select()를 이용해 데이터 추출
6. plyr
- 두 개 이상의 데이터 프레임을 병합하거나 분리해서 요약하고 집계할 때 사용되는 패키지
- 데이터를 분리하고 처리한 다음, 다시 결합하는 가장 필수적인 데이터 처리 기능 제공하고 있으며 한꺼번에 여러 개의 통계치를 구할 수 있음
7. 시뮬레이션
- 상황을 컴퓨터상에 모델로 재현해서 현상을 더 잘 이해하도록 하고 미래의 변화에 따른 결과를 예측하기 위한 것
8. 최적화
- 목적함수 값을 최대화, 최소화하는 것을 목표로 하는 방법
- 제약조건 하에서 목푯값을 개선하는 방식
- 목적함수와 제약조건을 정의하고 문제를 해결하는 것
9. 평균제곱오차(Mean Square Error)
- 수치 예측 목적의 지도학습일 경우 평균제곱오차를 사용해 예측도 또는 정확도를 측정
10. 회귀분석 가정
- 회귀분석결과를 활용하기 위해서는 총 4가지를 만족해야 한다.
1) 선형성
- 독립변수와 종속변수 간에는 선형적인 관계가 존재해야 한다.
2) 등분산성
- 회귀식의 잔차는 등분산성을 만족해야 함
3) 독립성
- 회귀식의 잔차는 독립성을 만족해야 함
4) 정규성
- 회귀식의 잔차는 평균이 0이고 정규분포를 따라야 함
11. 다중회귀분석 독립변수 선택방법
1) 변수모두선택
- 독립변수로 사용된 모든 변수를 이용해 회귀식을 세우는 방법
2) 후진제거법
- 회귀분석을 위해 모든 독립변수들을 이용해서 회귀식을 세우고 가장 유의하지 않은 독립변수를 제거하면서 적합한 회귀식을 찾는 방법
3) 전진선택법
- 사용된 독립변수 중에서 가장 유의한 변수를 선택해서 하나씩 회귀식에 추가하는 방법
4) 단계별선택법
- 전진선택법과 후진제거법을 동시에 이용하는 통계적 기법으로 단계별로 변수를 선택하는 방법
12. 분산분석
- 세 개 이상의 집단 간 평균에 대한 검정을 위해 사용되는 기법
- 분산을 기반으로 하여 통계적인 평균을 비교하는 기법
- 집단 간 분산과 집단 내 분산을 이용하여 집단 간 평균차이가 통계적으로 유의한지를 알아보기 위한 검정 방법
- 집단 내 분산과 집단 간 분산비를 구해 통계적인 차이가 있는지 검정
- 집단 내 분산과 집단 간 분산비를 통해 F검정통계량을 산출하게 되고, 이 값을 기반으로 하여 집단 간에 평균의 차이가 유의한지를 검정
13. 주성분분석
- 차원축소 방법
- 많은 변수의 분산방식의 패턴을 간결하게 표현하여 주성분 변수를 변수의 선형결합으로서 추출하는 통계적 기법
14. 상관관계분석
1) 피어슨상관계수
- 수치형 데이터에 대해서 두 변수 간의 연관성을 파악하기 위해 사용
2) 스피어만 상관계수
- 명목형 자료 또는 순서형 자료인 두 변수의 상관성 분석을 위해 교차분석 실시
- 교차분석은 카이제곱 통계량을 계산해 두 변수 간의 독립성 검정
15. 결정계수 R^2
- R^2 = SSR/SST
- SSR은 회귀, SSE는 잔차
- SST = SSR + SSE
- R^2 = SSR/(SSR+SSE)
- 독립변수의 수가 많아질수록 결정계수는 증가
- 종속변수와 관계가 없는 독립변수가 추가되어도 결정계수는 증가
16. 수정된결정계수 adjR^2
- 종속변수와 관계가 없는 독립변수가 추가되어 결정계수가 증가하는 단점을 보완하기 위해 만든 것.
- 종속변수와 관계가 없는 독립변수가 추가하면 결정계수는 떨어진다.
17. ANOVA 분석(분산분석)
- 3개 이상의 집단에 대한 평균차이 검정을 위한 것
- 집단 내 분산과 집단 간 분산 그리고 총분산과 F 통계량을 구해 집단 간의 평균차이를 검정하는 방법
- 분산분석에 사용되는 독립변수는 범주형 변수, 종속변수는 등간 척도나 비율 척도 자료
- 각 표본은 독립적, 모집단의 분산은 동일해야 함
- 집단 간 차이가 커지면 F 값이 커짐
18. 자기회귀모형
- AR(Auto Regression)
19. Apriori 알고리즘
- 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것
- 어떤 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘
20. 독립변수, 종속변수 유형에 따른 통계분석방법
종속변수 | |||
연속형 | 범주형 | ||
독립변수 | 연속형 | - 회귀분석 - 상관분석 - 인공신경망분석 |
- 로지스틱 회귀분석 - 판별분석 |
범주형 | - 회귀분석 - 인공신경망분석 |
- 로지스틱 회귀분석 - 분류트리기법 |
21. 과적합(Overfitting)
- 제한된 훈련 데이터셋에 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 것
22. 평균절대오차
- 예측오차의 절댓값들의 평균을 나타내는 방법으로 오차를 산출
23. 평균제곱오차
- 실제값과 예측값의 예측오차를 제곱하여 합해 평균한 오차를 계산하는 방법
24. 표준오차
- 실제값과 예측값의 평균제곱오차 계산값의 제곱근 값
25. 평균절대백분오차비율
- 실제 종속변수값 대비 예측오차 비율의 절댓값을 평균하여 계산한 값
- 오차의 발생 비율을 확인하는 방법
26. 추적오차
- 일반적으로 추적오차는 0 부근이 정상
- -4와 4를 벗어나면 예측모델의 성능이 저하되는 것을 의미하고 점검이 필요
27. 머신러닝 분류
1) 지도학습
- 독립변수와 종속변수 간의 상관관계를 파악해서 미래를 예측해내는 것
- SVM, 회귀분석, 신경망 등
2) 비지도학습
- 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 학습
- 군집화기법, 차원축소기법, 연관관계분석기법 등
3) 준지도학습
- 목푯값이 표시된 데이터와 목푯값이 표시되지 않은 데이터 모두를 훈련에 사용하는 것
4) 강화학습
- 상과 벌이라는 보상을 주어 상을 최대화하고 벌을 최소화하도록 학습하는 방식
- 보상의 가중치를 최대화하는 것이 목표
- 게임이론, 제어이론, 시뮬레이션기반 최적화 등에 사용
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 오답 - (2) (0) | 2020.12.14 |
---|---|
빅데이터분석기사 필기 오답 - (1) (1) | 2020.12.14 |
빅데이터분석기사 필기 4과목 요약 - 빅데이터 결과 해석 ① (1) | 2020.12.11 |
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ② (1) | 2020.12.10 |
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③ (0) | 2020.12.03 |
빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ② (0) | 2020.12.01 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ④ (0) | 2020.11.30 |
빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ (0) | 2020.11.30 |
최근댓글