반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

 

빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ 보러가기


1. 결측치(Missing Value)

- 측정된 샘플에서 누락된 변숫값

- 결측치 처리 방법은 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정(평균, 중앙값 등의 통계량 또는 회귀분석을 통한 값 추정)

 

2. 잡음(Noise)

- 데이터를 측정하는 데 있어서 여러 가지 이유로 개입되는 임의적인 요소로 변숫값을 본래의 참값에서 벗어나게 하는 오류

- 잡음을 제거하기 위해 구간화, 군집화, 회귀모형 변환 등의 방법 사용

 

3. 구간화

- 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속한 변숫값들을 하나의 변수값으로 변환하는 방법

 

4. 군집화

- 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대푯값으로 치환하는 방법

 

5. 레거시 데이터(Legacy Data)

- 과거의 데이터를 말함

 

6. 빅데이터 정제 처리

1) 데이터 변환

- 데이터 유형을 변환하거나 데이터 분석에 용이한 형태로 변환

- ETL을 통한 동일한 형태 변환

 

2) 데이터 교정

- 결측치 변환, 이상치 제거, 노이즈 데이터 교정

- 비정형 데이터 수집 시 반드시 수행

 

3) 데이터 통합

- 용이한 데이터 분석을 위한 기존 유사 데이터와의 연계 또는 통합

 

7. 데이터 세분화(Data Segmentation)

1) 데이터 세분화

- 데이터를 유의미한 기준에 따라 나누는 작업

- 정형 데이터는 큰 문제가 없으나 반정형, 비정형 데이터는 데이터 형식 변환 기준에 따라 세분화 작업 요구

 

2) 데이터 유형별 세분화

- 비정형 데이터는 정형 데이터로 변환되어 분석

 

3) 빅데이터 전처리

- 수집 데이터에 대한 필터링, 데이터 유형 변환, 정제 등의 작업을 수행하는 단계

- 전처리 과정을 거친 후 데이터 저장소에 적재

 

4) 빅데이터 후처리

- 저장된 데이터를 분석하기 전에 분석에 용이하도록 가공하는 작업

- 변환, 통합, 축소등의 과정

- 변환 : 다양한 형식으로 수집도니 데이터를 분석에 용이하도록 일관성 있는 형식으로 변환하는 과정으로 평활화, 집계, 일반화, 정규화, 속성생성 등의 작업 수행

 

8. 이상치 검출 방법

1) Variance

- 정규분포에서 97.5% 이상 2.5% 이하에 포함되는 값

 

2) Likelihood

- 베이즈 정리에 의해 데이터세트가 가지는 두가지 샘플에 대한 발생 확률로 판별

 

3) Nearest - neighbor

- 모든 데이터 쌍의 거리를 계산하여 검출

 

4) Density

- 측정값의 LOF를 계산하여 값이 가장 큰 데이터를 이상값으로 추정

- 밀도 있는 데이터세트로부터 먼 데이터가 이상값

 

5) Clustering

- 데이터를 여러 클러스터로 구분한 후 작은 크기의 클러스터나 클러스터 사이의 거리를 계산하여 먼 경우 해당 클로스터에 속한 값을 이상치로 판별


빅데이터분석기사 2과목 필기 요약 보러가기

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기