반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

 

빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ① 보러가기


1. 빅데이터 분석처리과정

- 데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

 

2.  데이터 모델링을 위한 단계

- 모델링 마트 설계와 구축단계 -> 탐색적 분석과 유의변수 도출단계 -> 모델링 성능평가단계

 

3. 빅데이터 전처리

1) 데이터 필터링

- 분석목적에 맞는 데이터만 추출하는 과정

- 비정형 데이터는 데이터마이닝을 통해 오류나 중복을 제거

- 저품질 데이터에 대해 개선하는 과정

 

2) 데이터 유형 변환

- 분석목적에 맞게 데이터 형태를 변환하는 과정

 

3) 데이터 정제

- 데이터의 결측치를 처리하거나 불일치를 교정, 노이즈 데이터를 처리하는 과정

 

4. 빅데이터 후처리

1) 데이터 변환

- 수집된 데이터를 일관성 있는 형식으로 변환하는 것

- 평활화, 집계, 일반화, 정규화, 속성 생성 등을 거쳐 데이터의 특성과 기법에 따라 변환을 수행

 

2) 데이터 통합

- 연관성 있는 데이터를 결합하는 것

- 중복데이터 검출 및 데이터 단위 일치시킴

 

3) 데이터 축소 과정

- 분석에 불필요한 데이터를 축소하여 분석의 효율성을 높이는 과정

 

5. 빅데이터 처리방식

대분류 중분류 기술
실시간처리 인메모리 컴퓨팅 인메모리 DBMS, 인메모리 데이터그리드
데이터스트림처리 스파크 스트리밍, 스톰 , S4 등
분산처리 클라우드컴퓨팅 클라우드컴퓨팅 분산처리
하둡 HDFS, MapReduce

 

6. 데이터 시각화 단계

1) 데이터 획득 단계(Acquire)

2) 데이터 변환 단계(Parse)

3) 데이터 선별 단계(Filter)

4) 데이터 분석 단계(Mine)

5) 데이터 시각화 모델 선정 단계(Represent)

6) 시각화 개선 단계(Refine)

7) 데이터 변경 및 내용 조절 단계(Interact)

 

7. 확률변수

- 표본공간의 근원사상을 정수나 실수로 표현하여 나타난 변수

 

8. 확률분포

- 확률변수를 중심으로 확률변수의 특성에 따라 확률로 표현한 분포

- 확률분포는 데이터 형태가 이산형인지 연속형인지에 따라서 구별되어 나타낼 수 있으며 확률분포의 특징을 구별하여 활용

 

9. 이산확률분포

- 확률변수가 일정한 수로 나타나는 것

- 베르누이분포, 이항분포, 포아송분포, 초기하분포, 기하분포, 음이항분포, 다항분포가 있음

 

10. 확률질량변수

- 이산확률변수 X의 확률함수 f(x)는 확률함수 또는 확률질량함수라고 함

 

11. t분포

- 자유도에 따라 모양이 변하며 0을 중심으로 좌우 대칭으로 나타나고 표준정규분포와 유사한 모양

 

12. 카이제곱분포

- 명목 척도나 서열 척도 자료의 독립성 검정, 적합성 검정, 동질성 검정에 주로 활용

- 자유도가 증가할수록 정규분포에 가까워짐

 

13. 표본크기가 작으면서 표준편차를 모르는 경우 t분포를 따름

 

14. 표준 크기가 큰 경우 정규분포를 따름

 

15. 점추정

- 표본 정보를 분석/이용해서 모수 값을 유도하고 모수에 대한 검정과정을 거쳐 옳고 그름을 판별하는 행위

- 모집단 평균에 대해서 하나의 값으로 추정할 수 있음

 

16. 구간추정

- 모평균을 포함할 수 있는 구간을 추정하는 것

 

17. 표본크기와 신뢰구간 관계

- 표본 크기가 커지면 신뢰구간의 길이는 짧아짐

- 표본 크기가 작아지면 신뢰구간의 길이는 길어짐

 

18. 편의

- 표본 추출에서 추정되는 모수와 추정량의 기댓값과의 차이

 

19. 오류의 종류

구분 귀무가설(참) 귀무가설(거짓)
귀무가설(채택) 옳은 결정 제2종 오류
귀무가설(기각) 제1종 오류 옳은 결정

 

20. p-value

- p < 유의수준 -> 귀무가설 기각, 대립가설 채택

- p > 유의수준 -> 대립가설 기각, 귀무가설 채택

 

21. 시계열 분석

- 시간의 경과에 따라 변동하는 변수를 관측하여 예측하는 방법

- 오랫동안의 변동을 통해 일정한 추세를 가지게 되면 그것을 통해 미래 예측하는 것이며 미래의 지속성을 확인하는 과정

 

22. 정상성

- 시계열 자료의 변동이 시간에 따라서 일정한 경우로, 시간이 지나도 분산이 일정한 경우

- 정상성을 만족한다는 것은 추세와 계절성이 있는 시계열 자료는 정상성을 만족할 수 없다는 것

 

23. 회귀계수의 추정을 위해 최소제곱추정법 사용

 

24. 자기회귀모형(AR 모형)

- 현 시점의 자료를 p 시점 전의 과거 자료로 설명할 수 있음

- 현시점이 시계열 자료에 몇 번째 과거의 자료까지가 영향을 주는지 알아야 함

- 자기상관함수(ACF)와 부분자기상관함수를 이용해 모델 식별

 

25. 이동평균모형(MA 모형)

- 현 시점의 자료를 유한 개의 백색잡음의 선형 결합으로 표현하고 항상 정상성을 만족하므로 정상성의 가정이 따로 필요 없는 모델

 

26. 자기회귀 누적이동평균모형(ARIMA 모형)

- 비정상 시계열 모형이기 때문에 차분이나 변환을 통해 AR모형이나 MA 모형, ARMA 모형을 정상화할 수 있음

 

27. 시계열 분해요인

1) 추세요인

- 데이터값이 오르거나 내리는 추세의 경향을 보이는 것

- 선형적으로 추세가 나타는 경우와 이차식 또는 지수적 형태를 취할 수 있고 자료가 특정 형태를 취하게 되는 것

 

2) 계절요인

- 요일마다 반복되거나 월에 의한 변화, 사분기에서 분기에 의한 변화 등 자료에서 고정된 주기에 따라 자료가 변화하는 경우를 의미

 

3) 순환요인

- 정확히 알려지지 않는 주기로 데이터가 변화하는 경우

 

4) 불규칙요인

- 추세요인, 계절요인, 순환요인으로 설명되지 않는 경우로 회귀분석에서 오차에 해당되는 요인

 

28. 지수평활

- 예측값을 과거 관측값의 가중평균을 통해 구할 수 있는 방법

- 과거 시간이 오래될수록 지수적으로 감소하는 가중치를 적용하며 가장 최근의 관측값일수록 높은 가중치를 적용하는 모델

 

29. 단순지수평활

1) 단순기법

- 시계열 자료 중 추세나 계절성 패턴이 없는 경우에 사용하는 것

- 단순기법을 사용할 경우 모든 미래 예측값은 시계열의 마지막 관측값과 같은 경우

 

2) 평균기법

- 모든 미래 예측치가 관측된 자료의 평균을 사용하는 것

 

3) 단순지수평활기법

- 오래된 자료보다는 최근의 자료가 더 중요한 영향을 미친다는 가정 하에 가중치가 지수적으로 감소하는 형태로 예측치를 계산하는 방법

 

4) 가중평균기법

- 가중평균으로 예측값을 구하는 모델

 

30. 시계열 변동에 대해 가장 장기적인 변동이라고 볼 수 있는 변동

- 추세변동

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기