반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.


1. 빅데이터란?

- 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술

- 빅데이터 분석 및 시각화 기술도 포함

 

2. 빅데이터의 특징

1) Volume(규모)

- 기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가

- 데이터 규모 증가

- ROI 관점에서 빅데이터의 핵심 특징에서 투자 비용 요소

- 데이터의 대용량성 확보

 

2) Variety(다양성)

- 정형, 반정형, 비정형 데이터처럼 데이터의 다양성이 높아짐

- 오디어, 비디오, 상품평, SNS, 텍스트, 멀티미디어 등 비정형화된 데이터의 증가

- ROI 관점에서 빅데이터의 핵심 특징에서 투자 비용 요소

- 데이터 측면의 적응성 확보

 

3) Velocity(처리속도)

- 사물 및 스트리밍 정보 등 실시간성 정보 증가

- 데이터 생성 및 이동 속도의 증가

- 대규모 데이터의 빠른 처리 및 분석 속도 요구

- ROI 관점에서 빅데이터의 핵심 특징에서 투자 비용 요소

- 데이터 측면의 실시간성 확보

 

4) Value(가치)

- 대용량 데이터 내부에 함축된 가치 찾기

- ROI 관점에서 빅데이터의 핵심 특징에서 비즈니스 효과 요소

 

 

5) Veracity(정확성)

- 데이터의 정확성, 타당성, 신뢰성(데이터 신뢰 수준)

 

3. 빅데이터의 특징 3V

- Volume, Variety, Velocity

 

4. 빅데이터의 특징 4V

- Volume, Variety, Velocity, Value

 

5. 빅데이터의 특징 5V

- Volume, Variety, Velocity, Value, Veracity

 

6. 빅데이터의 특징 6V

- Volume, Variety, Velocity, Value, Veracity, Visualization

- Visualization으로 6V도 있지만, Validity를 넣는 책도 있다.

 

7. 빅데이터의 특징 7V

- Volume, Variety, Velocity, Value, Veracity, Visualization, Validity(유효성), Volatility(휘발성)

- 총 8개인데, Visualization을 생략해도 되는지는 모르겠다.

- 다른 문헌에는 복잡성(Complexity)을 추가적으로 정의

 

8. 데이터의 크기 순서

- BYTE < KB < MB < GB < TB < PB < EB < ZB < YB < BB < GeB

 

9. 빅데이터의 유형

정형 데이터(Structured Data) 고정된 필드에 저장된 데이터
ex) 스프레드시트, RDBMS, 재무정보 등
반정형 데이터(Semi-structured Data) XML, HTML 텍스트 등의 메타 데이터 및 스키마 등을 포함하는 데이터
ex) 웹 로그 데이터, 특정 센서 데이터 등
비정형 데이터(UnStructured Data) 고정된 필드에 저장되어 있지 않은 데이터
형태나 구조가 정형ㅂ화되지 않고 다양한 형식을 갖는 데이터
ex) 그림, 동영상, 음성, 로그, SNS, RFID 데이터 등

 

10. 빅데이터 분석의 중요성

- 더욱 정확하게 다변화된 현대 사회를 예측하여 효율적으로 만듦

- 개인화된 현대 사회 구성원들에게 맞춤형 서비스를 제공하여 관리하고 분석을 가능하게 만듦

 

11. 빅데이터 요소 기술

1) 수집

- 데이터 원천으로부터 데이터를 검색하여 수동 또는 자동으로 수집

- 검색, 수집, 변환 과정 포함

- ETL(Extract, Transform, Load) 추출, 변환, 적재 작업 수행

- 크롤링, 로그 수집기, 센싱, Open API 등

 

2) 저장

- 데이터 크기에 상관없이 저렴한 비용으로 데이터를 빠르고 쉽게 저장

- 병렬 DBMS, Hadoop, NoSQL 등

 

3) 공유

- 시스템 간의 데이터 공유, 협업 필터링 등

 

4) 처리

- 데이터의 저장, 수집, 관리, 유통, 분석 과정 처리

- 분산병렬, 실시간, 인메모리 처리 등

 

5) 분석

- 데이터를 효율적이고 정확하게 분석하여 비즈니스 등의 영역에 적용

- 통계분석, 데이터마이닝, 텍스트마이닝, 최적화 분석 등

 

6) 시각화

- 다양한 차트와 관계 등을 시각화하여 데이터 탐색 및 결과해석 등에 활용

- 실시간 자료 분석 시각화 기술 등

 

12. 빅데이터 분석 특징

- 빅데이터 분석 시 데이터는 비정형 데이터의 비중이 높음

- 복잡성 문제를 해결하기 위해 분산처리 기술을 주로 사용

 

13. 빅데이터 분석 기획 능력

- NCS에서는 빅데이터 분석 기획 능력 단위를 네 가지 요소로 구분

능력 학습 모듈 내용
도메인 이슈 도출 분석과제 As/Is 및 개선방향 작성 - 주어진 업무에 대한 문제점을 정의하고 빅데이터 분석을 통한 개선 방향 도출
- 문제점 및 개선 목표가 포함된 빅데이터 요건 정의서 수립
분석목표 수립 분석목표정의서 확정 빅데이터 분석을 통해 얻고자 하는 목표를 정의한 분석목표정의서 수림
프로젝트 계획 프로젝트 계획 설계 예산, 소요기간, 환경 등을 고려하여 WBS(Work Breakdown Structure) 설계
보유데이터 자산 확인 내외부 데이터 활용 수준 분석 및 컴플라이언스 점검 - 분석목표와 프로젝트 계획에 따른 사전 데이터 점검
- 데이터 품질, 분량, 수집 경로 및 데이터 유형 점검

 

14. NCS 기반 빅데이터 분석 직무 정의

- 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수해하는 업무

 

15. WBS(Work Breakdown Structure, 작업분할구조도) 설계 문서

- 빅데이터 분석 프로젝트 수행에 필요한 예산, 소요 기간 및 현재의 IT 환경 등을 고려하여 작성하는 문서

 

16. 데이터베이스

- 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리하는 데이터의 집합

 

17. 데이터베이스의 특징

1) 통합된 데이터(Integrated Data)

- 동일한 내용의 데이터가 중복되어 있지 않은 것

 

2) 저장된 데이터(Stored Data)

- 컴퓨터가 접근할 수 있는 저장 매체에 저장

 

3) 공용 데이터(Shared Data)

- 여러 사용자가 데이터를 공동으로 이용

 

4) 변화되는 데이터(Changable Data)

- 데이터의 삽입과 삭제, 갱신으로 변화해도 정확한 데이터를 유지

 

18. 데이터베이스 관리 시스템(DBMS)

- 다수의 컴퓨터 사용자들이 컴퓨터에 저장된 자료들을 쉽고 빠르게 조회, 삽입, 수정, 삭제할 수 있도록 해주는 소프트웨어

 

19. DIKW

1) 데이터(Data)

- 수, 영상, 단어 등의 형태로 된 의미 단위

- 연구나 조사 등의 바탕이 되는 재료

 

2) 정보(Information)

- 특정 목적을 위해 광 또는 전자적 방식으로 처리되어 부호, 문자, 음성, 음향 및 영상 등을 표현하는 모든 종류의 자료

- 데이터를 가공한 것

- 사용할 수 있도록 가공/처리되어 의미 있고 유용한 형태로 제공

- 정보의 주요 특징은 정확성, 적지정, 충분성, 관련성 등이 있다.

 

3) 지식(Knowledge)

- 특정 영역에서 경험을 통해 정보를 통합한 형태

 

4) 지혜(Wisdom)

 

20. 빅데이터 분석목표정의서

1) 작성방법

ㄱ) 분석목적 설정 후, 목적을 이루기 위한 세부 목표 설정

ㄴ) 분석목표정의서 수립

ㄷ) 분석별로 필요한 소스 데이터, 분석방법, 데이터 수집 난이도, 분석 난이도, 분석 수행 주기, 분석결과에 대한 검증이 가능한 성과평가 기준 설계

ㄹ) 도메인 이슈 도출을 통한 개선 방향을 근거로 분석목표 수정

ㅁ) 성과평가 기준을 고려하여 목표 수준 정리하고 현실적으로 가능한 분석목표 수립

 

2) 빅데이터 분석목표정의서 구성요소

요소 주요 내용
데이터 원천 파악 데이터 정보 조사 테이블 정보와 데이터 축적기간 및 획득주기 조사
데이터 축적기간 및 호기득주기
테이블 정보
메타정보
지표 존재 여부
데이터 입수 난이도 조사 데이터 별로 수집 가능한지 조사
데이터 수집, 정제 프로세스 확인
수집 시기, 방법 및 메타정보 조사
분석접근 방안 및 적용 가능성 판단 현시점의 분석목표와의 차이를 고려하여 목표 조정
현시점에서 분석, 구축 환경이 마련되지 않으면 목표 조정
성과평가기준 정성 평가 정성적 요소 평가
활용성 등
정량 평가 기존 분석 방법 대비 증감 비율
데이터 모형 정확도
KPI에 의한 성과 측정

 

21. 빅데이터 분석목표정의서에서 작성되는 요소

- 테이블 정보 및 메타 정보 등 데이터 정보 조사 결과

- 데이터 수집 난이도

- 분석목표에 부합된 빅데이터 분석기법과 기술

 

22. 데이터 확보 계획 수립

 

23. 데이터 확보 계획 순서

- 목표 정의 -> 요구사항 도출 -> 예상안 수립 -> 계획 수립

 

1) 목표 정의

- 성과목표 정의 및 설정

 

2) 요구사항 도출

- 데이터 및 기술 지원 등과 관련된 요구사항 도출

- 필요 데이터 확보 및 관리 계획

- 데이터 정제 수준, 데이터 저장 형태

 

3) 예산안 수립

- 과제 진행을 위한 자원 및 예산 수림(데이터, 하드웨어, 소프트웨어, 네트워크, 클라우드, 유지보수, 인력 등)

 

4) 계획 수립

- 인력 투입 방안

- 일정 관리

- 위험 및 품질 관리

 

24. WBS(Work Breakdown Structure) 작성단계(세부적인 데이터 분석 단계)

- 데이터 분석과제 정의 -> 데이터 준비 및 탐색 -> 분석 모델링 및 검증 -> 산출물 정리

 

25. 빅데이터 분석 프로세스

- 문제인식 -> 관련 연구조사 -> 모형화 -> 자료 수집 -> 자료 분석 -> 분석결과 제시

- 4단계로 사용자 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용으로 줄일 수 있음

 

26. 데이터마이닝

- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법

- 의사결정 수단을 위하여 대용량의 데이터베이스로부터 의미 있는 규칙과 패턴을 발견하는 기법

- 데이터마이닝을 데이터 속의 지식 발견(Knowledge Discover in Database)라고도 부름.

- 통계학뿐만 아니라 패턴인식, 기계학습, 인공지능 등 다양한 분야에서 활용

 

27. 데이터마이닝 기법

1) 분류(Classification)

- 일정한 집단에 대한 특정 정의를 통한 분류

- Regression, Logistic Regression, Decision Tree, CART, C5.0, 나이브 베이지안 분류, 인공신경망, SVM, KNN 등

 

2) 군집화(Clustering)

- 구체적 특정을 공유하는 군집을 찾음

- 비지도학습

- 미리 정의된 특성에 대한 정보를 가지지 않음

 

3) 연관성(ssociation)

- 동시에 발생한 사건들 사이의 관계 정의

- 탐색적 분석

- 연관분석은 장바구니분석, 서열분석이라고도 부름

 

4) 연속성(Sequencing)

- 특정 기간에 걸쳐 발생하는 관계 규명

 

5) 예측(Forecasting)

- 대용량 데이터 집합 내의 패턴을 기반으로 한 미래 예측

 

28. 구조화 데이터베이스와 비구조화 데이터베이스

1) 구조화 데이터베이스(Structured DataBase)

- 정형화된 수치 데이터 저장

 

2) 비구조화 데이터베이스(UnStructured DataBase)

- 비정형화 데이터 저장

 

29. 데이터 분석가의 역량

- 수학적 역량

- 전문적 지식 역량

- 프로그래밍 역량

 

30. 빅데이터 분석 수행 시 필요한 태도

- 창의적 사고

- 논리적 사고

- 침착함

 

31. 우리나라에서 관리하고 있는 빅데이터 플랫폼 '공공 데이터 플랫폼'의 도메인 주소

- data.go.kr

 

32. 미국의 공공 데이터 주소

- data.gov

 

33. 영국의 공공 데이터 주소

- data.gov.uk

 

34. 정부 분야의 공공 데이터 공개가 주는 장점

- 업무의 안정성 제고

- 정부의 대민 신뢰도 향상

- 투명한 국가 운영

 

35. 빅데이터의 주요 요소 기술

- 데이터 수집

- 데이터 공유

- 데이터 저장

- 데이터 처리

- 데이터 분석

- 데이터 시각화

 

36. 데이터 시각화

- 자료를 실시간으로 묘사하는 기술

- 다양한 차트와 그래프 등을 이용하여 시각화

- EDA 및 결과 해석으로 활용

 

37. ETL(Extract/Transform/Load)

- Data의 추출, 변환, 적재와 관련된 용어

- 데이터 공유를 위한 기법으로 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능

- 데이터 요약, 논리적 데이터 변환, DBMS 간 데이터 변환 등을 수행

 

38. OLAP(Online Analytical Processing)

- 온라인 분석 처리 시스템

- 사용자가 동일한 데이터를 여러 기준을 이용하는 다양한 방식으로 바라보면서 다차원 데이터 분석을 할 수 있도록 지원

 

39. OLTP(Online Transaction Processing)

- 온라인 트랜잭션 처리 시스템

- 데이터 저장 및 트랜잭션 처리

 

40. 정보의 주요 특징

1) 정확성

- 정확한 데이터로부터 정확하게 처리되어 인지된 정보

 

2) 적시성

- 필요할 때 이용 가능한 데이터

 

3) 관련성

- 상황 및 주제와 관련된 데이터

 

4) 적당량

- 의사결정을 위해 필요한 만큼만 있으면 됨

 

5) 비용가치

- 정보 산출의 가치가 비용을 넘어서지 말아야 함


빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ② 보러가기

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기