반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

 

빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ① 보러가기


1. 빅데이터의 6단계 분석 프로세스

- 데이터 수집 -> 데이터 저장 -> 데이터 처리 -> 데이터 분석 -> 데이터 시각화 -> 데이터 이용 -> 데이터 폐기

1) 문제인식

 

2) 관련 연구조사

 

3) 모형화

- 변수 선정 단계

- 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려 단순화

- 많은 변수들이 포함된 문제로부터 그 특성을 잘 나타내는 결정적인 변수를 추림

- 제어 가능한 변수들을 선정하는 단계

 

4) 자료수집

 

5) 자료분석

 

6) 분석결과 제시

 

2. 데이터베이스의 주요특징(ACID)

1) 원자성(Atomicty)

- 트랜잭션과 관련된 작업들이 부분적으로 실행되다가 중단되지 않은 것을 보장하는 능력

- 즉, 트랜잭션과 관련된 작업들이 모두 실행되던지 실행되지 않던지 하는 능력

 

2) 일관성(Consistency)

- 언제나 일관성 있는 데이터베이스 상태로 유지

 

3) 고립성(Isolation)

- 트랜잭션 수행 시 다른 트랜잭션의 연산 작업이 끼어들지 못하도록 보장하는 능력

 

4) 지속성(Durability)

- 성공적으로 수행된 트랜잭션은 영원히 반영되어야 함

 

3. 비즈니스 모델

- 기업이 수익을 얻기 위한 일련의 활동, 수익모델

- 비즈니스 모델의 적합성을 판별하는 기준으로 가장 중요한 기준은 공공성보다 수익성이다.

 

4. NCS에서 정의하고 있는 빅데이터 분석 절차

- 도메인 이슈 도출 -> 분석목표 수립 -> 프로젝트 계획 수립 -> 보유 데이터 자산 확인 -> 분석 결과 시각화

- 도메인 이슈 도출 단계에서 빅데이터 요건 정의서 작성

- 분석목표 수립 단계에서 빅데이터 분석목표정의서 작성

 

5. 빅데이터 분석 프로젝트 수행을 위한 소요 비용

- 수행 인력에 대한 인건비

- 하드웨어 구입 및 사용 비용

- 소프트웨어 사용 비용

- 성과측정비 및 자문료

 

6. 빅데이터 요건 정의서

- 빅데이터 분석 과정 중 도메인 이슈 도출 과정에서 작성되는 문서

- 데이터 분석에 대한 기획 의도와 빅데이터 분석을 통해 개선되는 부분을 작성하는 문서

 

7. 빅데이터 분석목표정의서에서 작성되는 내용

- 분석목적, 우선순위, 접근 방안 등의 분석 기본정보

- 정성 및 정량적 성과측정 방법

- 실시간, 텍스트 데이터 분석 수행 여부 등의 분석 타당성에 대한 검토 의견

 

8. 사회조사분석의 과정에서 지켜져야 할 기준

- 분석가의 연구 가치 중립

- 설문 대상자의 사전 동의

- 설문 대상자의 비밀보장

 

9. 사회조사 분석 시 측정도구의 타당도 평가 방법

1) 개념 타당도

- 측정하고자 하는 개념이 실제로 적절하게 측정되었는가를 의미

 

2) 내용 타당도

- 점수 또는 척도가 일반화하려고 하는 개념을 어느 정도 잘 반영해 주는 가를 의미

 

3) Cronbach Alpha(크론바하 알파)값을 이용하여 설문 문항 답변에 대한 신뢰도 평가

- 신뢰도 계수 또는 Coefficient Alpha라고도 하며 일관성이 있는지 측정

- 크론바하 알파는 변수들끼리 상관관계가 클수록 항목별 분산들의 차이가 작을수록 크게 계산

 

10. 프로젝트 계획 수립

- 빅데이터 분석 프로세스 과정 중에서 작업분할구조도(WBS, Work Breakdown Structure0를 작성하는 단계

 

11. 빅데이터 플랫폼

- 다양한 데이터 소스에서 수집한 데이터를 분석, 처리하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는 데 필요한 IT 환경

 

12. 빅데이터 분석 프로젝트 수행을 위한 로드맵 수행 과정

- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분

 

13. 빅데이터 서비스 모델

- 빅데이터 서비스 제공자(또는 유무선 통신 서비스 제공자)가 단말/장비 공급자와 소프트웨어 공급자로부터 구매한 인프라를 이용하여 고객에게 데이터 처리, 데이터 및 정보 제공, 솔루션 제공, 교육 및 컨설팅 제공 등의 서비스를 제공하는 방법

 

14. 내부데이터

- 내부 조직 간 협의를 통한 데이터 수집

- 주로 수지이 용이한 정형 데이터

-  비용 및 난이도는 외부 데이터 수집보다 유리

- 서비스의 수명 주기 관리 용이

- 서비스 시스템(ERP, CRM, KMD, 포털, 원장정보시스템, 인증과금시스템, 거래시스템 등)

- 네트워크, VOC 데이터 등

 

15. 외부데이터

- 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터 등

- 주로 수집이 어려운 비정형 데이터

- 비용 및 난이도가 높음

- 외부 환경에 대한 통제가 어려움에 따른 서비스 관리정책 요구

- 소셜 데이터, 기관, M2M 센서데이터 등

 

16. HTML

- Hypertext Markup Language의 약어로, 웹 페이지를 만들 때 사용되는 문서 형식

- 텍스트, 태그, 스크립트로 구성

 

17. XML

- eXtensible Markup Language의 약어로, 확장 가능한 마크업 언어

- 데이터를 표현하기 위해서 태그 사용

- Element, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성

 

18. JSON

- Javascript Object Notation의 약어로, 자바스크립트를 위해 객체 형식으로 자료 표현

- 경량의 데이터 교환 방식

 

19. Python

- 추상화가 높은 고급언어, 객체 개념 사용, 스크립트 작성에 용이

- 플랫폼 독립적인 인터프리터 언어

- 가독성이 뛰어나며, 동적 타이핑, 높은 확장성과 확장 및 내장 기능을 갖고 있음

 

20. Ruby

- 동적 객체 지향 스크립트 프로그래밍 언어

- 간결성과 객체지향 언어이며, 유연성과 블록기능을 갖고 있음

 

21. 웹마이닝

- 데이터 수집 프로그램을 이용하여 웹페이지로부터 데이터를 수집하고 분석하는 방법

- 인터넷을 이용한 웹서비스의 다양한 패턴(특징)을 발견하기 위해 사용되는 기술

- 웹로그 분석, 웹콘텐츠 마이닝, 웹구조 마이닝 등

 

22. 데이터 품질 점검 항목

1) 데이터 분량

- 테이블 내 필요 칼럼별 확인

- 칼럼별 데이터 축적 기간 및 분량

 

2) 데이터 완전성

- 데이터 내 필요한 대상과 속성을 포함하는지 확인

- 데이터 누락 또는 결측값의 비율 확인

 

3) 데이터 일관성

- 데이터 속성 간 관계

- 데이터 상위/하위 간 관계에서의 값의 일치

- 데이터 유형과 값의 일치

 

4) 데이터 정확성

- 데이터의 편향과 분산

- 데이터의 편향이 큰 경우 측정값이 지속적인 영향을 받는 경우로 판단

- 분산이 큰 경우는 표본의 대표성이 낮을 수 있다는 가능성 고려

 

23. 데이터 수집 시 고려사항

1) 내부 데이터

- 내부 시스템에 원천 데이터 존재

- 조직 내부의 협의에 따른 수집

- 데이터 수집 시 기술적 제약 적음

- 원활한 의사소통을 통한 데이터 수집 가능

 

2) 외부 데이터

- 외부 시스템에 원천 데이터 존재

- 상호 협약에 의한 수집

- 데이터 수집 시 기술적 제약 많음

- 의사소통의 어려움으로 데이터 수집이 어려움

 

24. 데이터 저장

1) 데이터 저장 시스템

- 데이터 유형을 고려하여 저장 시스템 선정

- 정형 데이터 : RDB 시스템에 저장

- 반정형 데이터 : RDB나 NoSQL 시스템에 저장

- 비정형 데이터 : NoSQL이나 분산파일 시스템에 저장

 

25. 데이터웨어하우스

- 기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합

- 기업 내의 의사결정 지원 애플리케이션들을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간

 

26. 데이터 마트

- 전사적으로 구축된 데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스

- 기업 내 또는 기업들 사이의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하기 위해 EAI 기술 활용

 

27. 분산파일시스템

- 빅데이터를 확장 가능한 분산파일 형태로 저장하는 방법

- Apache HDFS, Google GFS 등이 있음

 

28. 데이터베이스 용어

1) 속성(Attribute)

- 테이블에서 열을 나타내는 말

- 필드와 같음

 

2) 튜플(Tuple)

- 테이블에서 행을 나타내는 말 

- 레코드와 같음

 

3) 도메인(Domain)

- 하나의 속성이 취할 수 있는 값의 집합

 

4) 차수(Degree)

- 속성의 수

 

5) 카디널리티(Cardinality)

- 튜플의 수

 

29. 분산 컴퓨팅

- 단일 시스템의 성능 한계

- 단일 시스템의 성능 향상을 위한 비용증가로 효율성 감소

- 네트워크로 연결된 시스템에 여러 장치를 분산하여 처리

- 대형 시스템의 복잡성을 줄이고 다양한 보안 정책 가능

- 각 시스템의 개별적 독립성 제공

 

30. 병렬 컴퓨팅

- 여러 개의 복잡한 연산을 순차적이 아닌 병렬적으로 동시 처리

- 서로 독립적 결과를 얻는 병렬적 처리 단계로 변환하여 문제 해결

- 동시에 수행되어도 상관없는 처리 단계들로 구성

- 어떤 단계의 결과가 다른 단계에 영향을 미치지 않음

- 병렬화가 가능한 수준만큼 처리시간 단축 가능

- 특정 데이터가 다른 데이터에 영향을 주지 않는 경우 적용

- 데이터는 독립적으로 저장, 처리, 분석될 수 있음

- 병렬컴퓨팅을 통해 한 번에 많은 데이터 처리 가능

 

31. 병렬화

- 동시에 처리되는 대상을 찾아 구분하는 작업

 

32. 클라우드 컴퓨팅

- 인터넷(웹) 기반의 컴퓨팅 기술

- 유틸리티 데이터 서버에 프로그램을 두고 필요시 컴퓨터 등에 불러와서 사용

- 인터넷 IT자원(소프트웨어, 플랫폼, 인프라 등) 사용

- IT 자원의 소유가 아니라 대여의 개념

- 보다 많은 IT 자원을 이요할 수 있는 서비스 제공

- 문서 작성 및 저장장치를 통한 데이터 저장 가능


빅데이터분석기사 필기 1과목 요약 - 빅데이터 분석 기획 ③ 보러가기

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기