반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ② 보러가기


1. 데이터 검증 절차

1) 데이터 품질

- 정확성

- 완전성

- 적시성

- 일관성

 

2) 데이터 무결성

- 개체 무결성

- 참조 무결성

- 속성 무결성

- 키 무결성

- 도메인 무결성

- 사용자 정의 무결성

 

3) 데이터 비식별화

- 가명 처리

- 총계 처리

- 데이터 값 제거

- 범주화

- 데이터 마스킹

 

2. 데이터 품질

- 데이터 분석의 목적을 달성하고, 최종 사용자의 기대를 만족시키기 위해 데이터가 확보하고 있어야 할 성질

 

3. 데이터 품질보증

- 데이터 품질검증 계획을 수립하고, 품질검증 지표를 선정하여 품질검증 활동을 함으로 분석목적에 적합한  품질의 데이터를 이용하여 최상의 분석결과를 얻도록 함

 

4. 수집된 데이터의 효율적인 검증 절차

- 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치

 

5. 적재 데이터 신뢰성 파악

1) 재검사법

- 동일한 대상에 동일한 측정 도구를 서로 상이한 시간에 두 번 측정한 다음 그 결과를 비교

- 재검사에 의한 반복측정을 통해 결과에 대한 상관관계를 구하여 계산된 상관계수로 신뢰도 추정

- 상관계수의 값이 높으면 신뢰도가 높다고 평가

 

2) 대안법

- 재검사법의 변형

- 동일한 정의 또는 지표들에 대한 측정도구를 두 종류씩 만들어 동일한 측정 시스템에 대해 적용한 데이터를 서로 비교하여 신뢰도 측정

 

3) 관찰자에 의한 평가

- 관찰의 안정성을 기초로 한ㅛ 신뢰도 측정 방법

- 재검사적 관찰자와 대안적 관찰자에 의한 신뢰도 평가 구분

 

6. YARN

- 하둡 클러스터 내 자원 관리 플랫폼(자원 동적 공유 관리)

 

7. 기술적 보안

1) 소프트웨어

- 시큐어 코딩

- 어플리케이션 및 행정업무 소프트웨어 점검

- 접근 통제, 바이러스 침입 대책 수립

 

2) 네트워크

- 전송 데이터에 대한 보안 수립

- 비인가 접근 방지 대책 수립

 

8. 관리적 보안

1) 내부 문서

- 작성문서, 자료의 유출, 노출, 변조, 손실 방지

 

2) 인원 및 조직

- 권한과 책임 부여, 통제 대책 수립

- 참여 인력에 대한 보안서약서 제출

- 보안 교육 실시

 

3) 정책 및 절차

- 빅데이터 시스템 보안 구현

- 표준화 정책 수립, 보안을 위한 제도적 절차 수립

 

9. 물리적 보안

1) 컴퓨터 사무기기

- 데이터 변경, 삭제, 노출 방지

- 개인정보 유출 방지

 

2) 전산 설비

- 전산 설비에 대한 출입 통제

- 설비의 사고, 화재, 장애 방지 대책 수립

 

10. 데이터 품질 유형

- 정확성

- 완전성

- 일관성

- 유일성

- 유효성

 

11. 비정형 데이터 품질관리

- 기능성

- 신뢰성

- 사용성

- 효율성

- 이식성

 

12. 차원 축소 방법

- 주성분 분석

- 독립성 분석

- 특이값 분해

- 요인 분석

- 다차원 척도법

 

13. 빅데이터 분석 모형을 검증하는 대표적인 방법

- Holdout Cross Validation, k-fold Cross Validation

 

14. 교차분석 방법

- 적합도 검정 : 관찰도수와 이론에 의한 기대도수 사이에 적합도 여부 검정

- 독립성 검정 : 두 변수 간에 관련성이 있는지를 알아보는 독립성 검정

- 동일성 검정 : k개 부분 모집단의 표본이 c개의 번주로 주어졌을 때, 이들 각 모집단의 분포가 서로 동일한가를 검정

 

15. 데이터 시각화

- 데이터 분석결과를 사용자가 쉽게 이해할 수 있도록 시각적 수단을 통해 제시하는 것으로 텍스트, 도표, 이미지 등을 이용하여 한눈에 이해할 수 있도록 하는 것

 

16. 데이터 시각화 3단계

- 구조화 -> 시각화 -> 시각표현

 

17. 7단계 시각화 프로세스

- 획득 -> 구조화 -> 추출 -> 마이닝 -> 시각화 -> 재정의 -> 상호작용

 

18. 데이터 변수의 형식에 따른 시각화

- 단변수 : Bar or 파이 그래프등으로 표시

- 이변수 : Scatter plot

- 삼변수 : 산점도 매트릭스

- 다변수 : 평형좌표 plot, 스타 plot, 산점도 매트릭스, 아이콘 등으로 표현

 

19. 전이학습

- 완료된 학습 모델을 유사 분야에 전이하여 학습시키는 기술

- 적은 데이터에도 학습을 빠르게 하고 예측의 정확도를 높임

 

20. 선형 신경망

- 가장 간단한 형태의 인공 신경망 분석기법으로서 입력 자료로부터 직접 관측할 수 없는 영역을 예측하고 이로부터 결과를 찾아내는 학습 기법

 

21. 순환 신경망

- 과거 정보와 현재의 입력값을 결합하는 방법

- 순서를 고려한 학습 모델로서 데이터의 순서가 중요한 시계열 및 언어 처리 분석 등에 활용

 

22. 생성적 적대 신경망

- 두 개의 네트워크로 구성된 심층 신경망 구조로 하나의 네트워크가 다른 네트워크와 겨루는 구조를 가짐으로 이미지, 음악, 텍스트 등의 모든 분야에서 실제와 비슷한 새로운 창작물을 만들 수 있는 학습 모델 제공

 

23. 합성곱 신경망

- 주로 시각적 이미지를 분석하는 데 사용되며, 이미지의 특징을 추출하는 필터 역할을 하는 컨볼루션 레이어를 적용하여 효율적으로 고차원의 이미지를 인식하고 분류함

 

24. 딥러닝 개발 환경

- 텐서플로우

- Caffe

- Theano

- Chainer

- MXNet

- Keras

 

25. 머신러닝 개발 환경

- GCP

- MS Azure

- 아마존

- IBM Bluemix

- IBM Watson

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기