반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

 

빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ③ 보러가기


1. 빅데이터분석 주제 유형

  분석대상(WHAT) - Known 분석대상(WHAT) - UnKnown
분석방법(HOW) - Known Optimization Insight
분석방법(HOW) - UnKnown Solution Discovery

 

2. 요약변수

- 기본 정보를 aggregation한 변수로 세분화나 행동 예측이 가능

 

3. 파생변수

- 특정의미를 갖는 작위적 의미의 변수

 

4. reshape

- melt()와 cast()을 이용해 데이터를 재구성하거나 재정렬하기 위한 기법으로 밀집화된 데이터를 유연하게 생성해 줌

1) melt()

- 선택한 id 변수를 이용해 나머지 변수를 variable이란 이름의 데이터로 만드는 것

- 모델링할 때의 데이터 구조에 적합

 

2) cast()

- 원하는 형태와 함수를 이용해서 데이터를 요약

- 그래프를 시각화할 때의 데이터 구조에 적합

 

5. sqldf

- sqldf() 함수를 이용하여 데이터 조회를 실행

- SQL 명령이 주어지면 자동으로 스키마를 생성하고 데이터를 테이블로 로드한 뒤 SQL문을 수행하며 SQL 실행 결과를 다시 R로 로드하는 것

- 데이터를 불러올 때 select()를 이용해 데이터 추출

 

6. plyr

- 두 개 이상의 데이터 프레임을 병합하거나 분리해서 요약하고 집계할 때 사용되는 패키지

- 데이터를 분리하고 처리한 다음, 다시 결합하는 가장 필수적인 데이터 처리 기능 제공하고 있으며 한꺼번에 여러 개의 통계치를 구할 수 있음

 

7. 시뮬레이션

- 상황을 컴퓨터상에 모델로 재현해서 현상을 더 잘 이해하도록 하고 미래의 변화에 따른 결과를 예측하기 위한 것

 

8. 최적화

- 목적함수 값을 최대화, 최소화하는 것을 목표로 하는 방법

- 제약조건 하에서 목푯값을 개선하는 방식

- 목적함수와 제약조건을 정의하고 문제를 해결하는 것

 

9. 평균제곱오차(Mean Square Error)

- 수치 예측 목적의 지도학습일 경우 평균제곱오차를 사용해 예측도 또는 정확도를 측정

 

10. 회귀분석 가정

- 회귀분석결과를 활용하기 위해서는 총 4가지를 만족해야 한다.

1) 선형성

- 독립변수와 종속변수 간에는 선형적인 관계가 존재해야 한다.

 

2) 등분산성

- 회귀식의 잔차는 등분산성을 만족해야 함

 

3) 독립성

- 회귀식의 잔차는 독립성을 만족해야 함

 

4) 정규성

- 회귀식의 잔차는 평균이 0이고 정규분포를 따라야 함

 

11. 다중회귀분석 독립변수 선택방법

1) 변수모두선택

- 독립변수로 사용된 모든 변수를 이용해 회귀식을 세우는 방법

 

2) 후진제거법

- 회귀분석을 위해 모든 독립변수들을 이용해서 회귀식을 세우고 가장 유의하지 않은 독립변수를 제거하면서 적합한 회귀식을 찾는 방법

 

3) 전진선택법

- 사용된 독립변수 중에서 가장 유의한 변수를 선택해서 하나씩 회귀식에 추가하는 방법

 

4) 단계별선택법

- 전진선택법과 후진제거법을 동시에 이용하는 통계적 기법으로 단계별로 변수를 선택하는 방법

 

12. 분산분석

- 세 개 이상의 집단 간 평균에 대한 검정을 위해 사용되는 기법

- 분산을 기반으로 하여 통계적인 평균을 비교하는 기법

- 집단 간 분산과 집단 내 분산을 이용하여 집단 간 평균차이가 통계적으로 유의한지를 알아보기 위한 검정 방법

- 집단 내 분산과 집단 간 분산비를 구해 통계적인 차이가 있는지 검정

- 집단 내 분산과 집단 간 분산비를 통해 F검정통계량을 산출하게 되고, 이 값을 기반으로 하여 집단 간에 평균의 차이가 유의한지를 검정

 

13. 주성분분석

- 차원축소 방법

- 많은 변수의 분산방식의 패턴을 간결하게 표현하여 주성분 변수를 변수의 선형결합으로서 추출하는 통계적 기법

 

14. 상관관계분석

1) 피어슨상관계수

- 수치형 데이터에 대해서 두 변수 간의 연관성을 파악하기 위해 사용

 

2) 스피어만 상관계수

- 명목형 자료 또는 순서형 자료인 두 변수의 상관성 분석을 위해 교차분석 실시

- 교차분석은 카이제곱 통계량을 계산해 두 변수 간의 독립성 검정

 

15. 결정계수 R^2

- R^2 = SSR/SST

- SSR은 회귀, SSE는 잔차

- SST = SSR + SSE

- R^2 = SSR/(SSR+SSE)

- 독립변수의 수가 많아질수록 결정계수는 증가

- 종속변수와 관계가 없는 독립변수가 추가되어도 결정계수는 증가

 

16. 수정된결정계수 adjR^2

- 종속변수와 관계가 없는 독립변수가 추가되어 결정계수가 증가하는 단점을 보완하기 위해 만든 것.

- 종속변수와 관계가 없는 독립변수가 추가하면 결정계수는 떨어진다.

 

17. ANOVA 분석(분산분석)

- 3개 이상의 집단에 대한 평균차이 검정을 위한 것

- 집단 내 분산과 집단 간 분산 그리고 총분산과 F 통계량을 구해 집단 간의 평균차이를 검정하는 방법

- 분산분석에 사용되는 독립변수는 범주형 변수, 종속변수는 등간 척도나 비율 척도 자료

- 각 표본은 독립적, 모집단의 분산은 동일해야 함

- 집단 간 차이가 커지면 F 값이 커짐

 

18. 자기회귀모형

- AR(Auto Regression)

 

19. Apriori 알고리즘

- 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것

- 어떤 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘

 

20. 독립변수, 종속변수 유형에 따른 통계분석방법

  종속변수
연속형 범주형
독립변수 연속형 - 회귀분석
- 상관분석
- 인공신경망분석
- 로지스틱 회귀분석
- 판별분석
범주형 - 회귀분석
- 인공신경망분석
- 로지스틱 회귀분석
- 분류트리기법

 

21. 과적합(Overfitting)

- 제한된 훈련 데이터셋에 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 것

 

22. 평균절대오차

- 예측오차의 절댓값들의 평균을 나타내는 방법으로 오차를 산출

 

23. 평균제곱오차

- 실제값과 예측값의 예측오차를 제곱하여 합해 평균한 오차를 계산하는 방법

 

24. 표준오차

- 실제값과 예측값의 평균제곱오차 계산값의 제곱근 값

 

25. 평균절대백분오차비율

- 실제 종속변수값 대비 예측오차 비율의 절댓값을 평균하여 계산한 값

- 오차의 발생 비율을 확인하는 방법

 

26. 추적오차

- 일반적으로 추적오차는 0 부근이 정상

- -4와 4를 벗어나면 예측모델의 성능이 저하되는 것을 의미하고 점검이 필요

 

27. 머신러닝 분류

1) 지도학습

- 독립변수와 종속변수 간의 상관관계를 파악해서 미래를 예측해내는 것

- SVM, 회귀분석, 신경망 등

 

2) 비지도학습

- 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 학습

- 군집화기법, 차원축소기법, 연관관계분석기법 등

 

3) 준지도학습

- 목푯값이 표시된 데이터와 목푯값이 표시되지 않은 데이터 모두를 훈련에 사용하는 것

 

4) 강화학습

- 상과 벌이라는 보상을 주어 상을 최대화하고 벌을 최소화하도록 학습하는 방식

- 보상의 가중치를 최대화하는 것이 목표

- 게임이론, 제어이론, 시뮬레이션기반 최적화 등에 사용

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기