츄르사려고 코딩하는 코집사입니다.
1과목
1. 데이터의 유형
1) 정성적 데이터
- 저장, 검색, 분석에 많은 비용이 소모 되는 언어, 문자 형태의 데이터-> 회사 매출이 증가 등
- 정형화가 되지 않아 비용 소모가 큼
- 주관적 내용
- 통계분석이 어려움
2) 정량적 데이터
- 정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터->키, 몸무게, 나이, 주가 등
- 정형화가 된 데이터로 비용 소모가 적음
- 객관적 내용
- 통계분석이 용이함
2. 지식경영의 핵심 이슈
1) 암묵지
- 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
- 사회적으로 중요하지만 공유되기 어려움
- 공통화, 내면화
- 김장김치 담그기, 자전거 타기 등
- 개인에게 축적된 내면화된 지식
- 조직의 지식으로 공통화
2) 형식지
- 문서나 메뉴얼처럼 형상화된 지식
- 전달과 공유가 용이함
- 표출화, 연결화
- 교과서, 비디오, DB 등
- 언어, 기호, 숫자로 표출화된 지식
- 개인의 지식으로 연결화
3. DIKW 피라미드
- Data : 데이터 / 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
- Information : 정보 / 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
- Knowledge : 지식 / 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
- Wisdom : 지혜 / 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
4. 데이터
- 과거의 관념적이고 추상적인 개념 -> 기술적이고 사실적인 의미로 변화
- 추론과 추정의 근거를 이루는 사실
- 다른 객체와의 상호관계 속에서 가치를 가짐
5. 데이터의 특성
1) 존재적 특성 : 객관적 사실(fact, raw material)
2) 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거(basis)
6. 데이터베이스의 일반적인 특징
1) 통합된 데이터(integrated data)
- 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
2) 저장된 데이터(stored data)
- 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
3) 공용 데이터(shared data)
- 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
4) 변화되는 데이터(changable data)
- 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지
7. 데이터베이스의 다양한 측면에서의 특징
1) 정보의 축적 및 전달측면
- 기계가독성 : 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
- 검색가독성 : 다양한 방법으로 필요한 정보 검색
- 원격조작성 : 정보통신망을 통하여 원거리에서도 즉시 온라인 이용
2) 정보 이용 측면
- 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득
- 원하는 정보를 정확하고 경제적으로 찾아낼 수 있는 특성
3) 정보 관리 측면
- 정보를 일정한 질서와 구조에 따라 정리, 저장, 검색, 관리 할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신 용이
4) 정보기술 발전 측면
- DB는 정보처리, 검색, 관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 발전에 견인
5) 경제/산업 측면
8. 1980년대 기업내부 데이터베이스
1) OLTP(On-Line Transaction Processing)
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말간의 처리 형태의 하나
- 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 DB를 액세스하고, 바로 처리 결과를 돌려보내는 형태
- 실시간 처리와 비슷하여 주문입력시스템, 재고관리시스템 등
- 데이터 갱신 위주
- 데이터 구조 복잡
2) OLAP(On-Line Analytical Processing)
- 정보 위주의 분석 처리
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해 줌.
- OLTP에서 처리된 트랜잭션 데이터를 분석해 제품 판매 추이, 구매 성향, 재무 회계 분석 등
- 데이터 조회 위주
- 데이터 구조 단순
9. 2000년대 기업내부 데이터베이스
1) CRM(Customer Relationship Management)
- 고객 관계 관리
- 기업이 고객과 관련된 내외부 자료를 분석/통합해 고객 중심 자원 극대화
- 고객특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정
2) SCM(Supply Chain Management)
- 공급망 관리
- 기업에서 원재료의 생산/유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것
- 부품 공급업체와 생산업체, 고객에 이르기까지 거래관계에 있는 기업들간 IT를 이용한 실시간 정보공유를 통해 시장이나 수요자들의 요구에 기민하게 대응토록 지원하는 것
10. 분야별 데이터베이스
1) 제조분야
- ERP(Enterprise Resource Planning) : 경영자원을 하나의 통합 시스템으로 재구축함으로 생산성 극대화
- BI(Business Intelligence) : 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스
- CRM(Customer Relationship Management)
- RTE(Real-Time Enterprise) : 회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템이며, 회사 전 부문의 정보를 하나로 통합
2) 금융분야
- EAI(Enterprise Application Integration) : 정보를 중압 집중적으로 통합, 관리, 사용할 수 있는 환경 구현
- EDW(Enterprise Data Warehouse) : 기존 DW(Data Warehouse)를 전사적으로 확장한 모델로 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
3) 유통부문
- KMS(Knowledge Management System) : 지식관리시스템을 의미하며, 지적 재산의 중요성이 커지는 지식사회로 이동함에 따라 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근 방식
- RFID(RF, Radio Frequency) : 주파수를 이용해 ID를 식별하는 SYSTEM으로 일명 전자태그로 불리며, 전파를 이용해 먼 거리에서 정보를 인식하는 기술로 적용대상에 RFID 칩을 부착한 후 리더기를 통해 정보 인식
11. 사회기반구조로서의 데이터베이스
1) EDI(Electronic Data Interchange)
- 주문서, 납품서, 청구서 등 무역에 필요한 각종 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 컴퓨터통신망을 이용하여, 거래처에 전송하는 시스템
2) VAN(Value Added Network)
- 부가가치통신망
- 공중 전기통신사업자(한국전기통신공사)로부터 통신회선을 차용하여 독자적인 네트워크를 형성하는 것
- 단순한 통신이 아니라 부가가치가 높은 서비스를 하는 것
3) CALS(Commerce At Light Speed)
- 전자상거래 구축을 위해 기업 내에서 비용 절감과 생산성 향상을 추구할 목적으로 시작됐고, 데이터를 통합하고 공유 및 교환할 수 있도록 한 경영통합정보시스템
4) 기타
- CVO(Commercial Vehicle Operation System, 화물운송정보)
- PORT-MIS(항만운영정보시스템)
- KROIS(철도운영정보시스템)
- GIS(Geographic Information System, 지리정보시스템)
- RS(Remote Sensing, 원격탐사)
- GPS(Global Positioning System, 범지구위치결정시스템)
- ITS(Intelligent Transprot System, 지능형교통시스템)
- LBS(Location Based Service, 위치기반서비스)
- SIM(Spatial Information Management, 공간정보관리)
- PACS(Picture Archiving and Communications System)
- U헬스(Ubiquitous-Health)
- NEIS(National Education Information System, 교육행정정보시스템)
12. 빅데이터의 3V
- Volume : 데이터의 규모(양) -> 센싱데이터, 비정형데이터
- Velocity : 데이터의 처리 속도 -> 정형, 비정형데이터
- Variety : 데이터의 다양성
- 추가로, 4V에서는 Value(가치), Visualization(시각화), Veracity(정확성)
13. 빅데이터 정의의 범주 및 효과
1) 데이터 변화
- 규모(Volume)
- 형태(Variety)
- 속도(Velocity)
2) 기술 변화
- 데이터 처리, 저장, 분석 기술 및 아키텍쳐
- 클라우드 컴퓨팅 활용
3) 인재, 조직 변화
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
14. 빅데이터 과거에서 현재로의 변화
1) 사전처리 -> 사후처리
2) 표본조사 -> 전수조사
3) 질 -> 양
4) 인과관계 -> 상관관계
15. 빅데이터 가치 산정이 어려운 이유
1) 데이터 활용 방식
2) 새로운 가치 창출
3) 분석 기술 발전
16. 빅데이터 시대의 위기 요인
1) 사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회경제적 위협으로 변형 가능
- 익명화 기술 발전 필요
2) 책임 원칙 훼손
- 빅데이터 분석 및 기술이 발전하면서 분석대상이 되는 사람들은 예측 알고리즘 희생양 가능
3) 데이터 오용
- 잘못된 지표를 사용하여 빅데이터의 폐해 가능
17. 위기 요인에 따른 통제 방안
1) 동의에서 책임으로
2) 결과 기반 책임 원칙 고수
3) 알고리즘 접근 허용
18. 빅데이터 활용의 3요소
1) 데이터 : 데이터화
2) 기술 : 진화하는 알고리즘, 인공지능
3) 인력 : 데이터 사이언티스트, 알고리즈미스트
19. 데이터사이언티스트 역할
- 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력 등
20. 데이터 사이언티스트 요구 역량
- Analytics, IT 전문성, 비즈니스 분석
1) Hard Skill
- 빅데이터에 대한 이론적 지식
- 분석 기술에 대한 숙련
2) Soft Skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야간 협력 : 커뮤니케이션
21. DBMS
- Data Base Management System의 약자로 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
22. DMBS 종류
1) 관계형 DBMS
- 데이터를 컬럼과 로우를 이루는 하나 이상의 테이블로 정리하며, 고유키가 각 로우를 식별
- 로우는 레코드나 튜플로 부른다.
2) 객체지향 DBMS
- 정보를 객체 형태로 표현하는 데이터베이스 모델
3) 네트워크 DBMS
- 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델
4) 계층형 DBMS
- 트리 구조를 기반으로 하는 계층 데이터베이스 모델
23. SQL
- Structured Query Language의 약자로, 데이터베이스를 사용할 때 데이터베이스에 접근할 수 있는 데이터 베이스의 하부 언어로, 단순한 질의 기능 뿐만 아니라 완전한 데이터의 정의와 조작 기능을 갖추고 있음.
24. 개인정보 비식별 기술
1) 데이터 마스킹
- 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
2) 가명처리
- 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의
3) 총계처리
- 데이터의 총합 값을 보임으로 개별 데이터의 값을 보이지 않도록 함
4) 데이터값 삭제
- 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값 삭제
5) 데이터 범주화
- 데이터의 값을 범주의 값으로 변환하여 값을 숨김
25. 무결성과 레이크
1) 데이터 무결성(Data Integrity)
- 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터변경/수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것
- 개체 무결성, 참조 무결성, 범위 무결성이 있음
2) 데이터 레이크(Data Lake)
- 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
- 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미
26. 빅데이터 분석 기술
1) 하둡(Hadoop)
- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능 제공
- 맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터를 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술
- 하둡 에코시스템으로 하둡의 부족한 기능을 서로 보완
- java로 개발되었음
2) Apache Spark
- 실시간 분산형 컴퓨팅 플랫폼
- 스칼라로 작성이 되어 있으며, 스칼라, 자바, R, 파이썬, API를 지원
- In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠름
27. 데이터양의 단위
- B -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB
28. 데이터의 유형
1) 정형데이터
- 형태(고정된 필드)가 있으며, 연산 가능. 주로 관계형 데이터베이스(RDBMS)에 저장됨
- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움
- RDBMS, 스프레드시트, CSV 등
2) 반정형데이터
- 형태(스키마, 메타데이터)가 있으며, 연산 불가. 주로 파일로 저장.
- 데이터 수집 난이도가 중간이고, 보통 API 형태로 제공되기 때문에 데이터처리 기술(파싱)요구
- XML, HTML, JSON, 로그형태(웹로그, 센서데이터) 등
3) 비정형데이터
- 형태가 없으며, 연산이 불가.
- 주로 NoSQL에 저장
- 데이터 수집 난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리 어려움
- 소셜데이터(트위터, 페이스북, 인스타 등), 영상, 이미지, 음성, 텍스트 등
2과목
1. 분석 기획
- 과제를 정의
- 결과를 도출
- 관리할 수 있는 방안을 사전에 계획
2. 데이터 사이언티스트의 역량
- Math&Statistics
- Information Technology
- Domain Knowledge
3. 분석 대상과 방법
- 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 나뉨
1) 분석의 대상(What) Known, 분석의 방법(How) Known -> Optimization
2) 분석의 대상(What) Known, 분석의 방법(How) UnKnown -> Solution
3) 분석의 대상(What) UnKnown, 분석의 방법(How) Known -> Insight
4) 분석의 대상(What) UnKnown, 분석의 방법(How) UnKnown -> Discovery
4. 목표 시점 별 분석 기획 방안
1) 과제 중심적인 접근 방식
- 당면한 과제를 빠르게 해결
- 문제 해결 집중
- 단기간
2) 장기적인 마스터 플랜 방식
- 지속적인 분석 내재화를 위함
- 문제 정의 집중
- 장기간
5. 분석 방법론
- 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
6. 방법론의 생성과정
7. 방법론의 적용 업무의 특성에 따른 모델
1) 폭포수 모델(Waterfall Model)
- 단계를 순차적으로 진행하는 방법
- 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견될 시 피드백 과정 수행
2) 프로토타입 모델(Prototype Model)
- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식
- 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공
- 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 통한 개선 작업 시행하는 모델
3) 나선형 모델(Spiral Model)
- 반복을 통해 점증적으로 개발하는 방법
- 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승
8. 방법론의 구성
1) 단계 : 최상위 계층으로 프로세스 그룹을 통하여 완성된 단계별 산출물 생성 -> 단계별 완료 보고서
2) 태스크 : 단계를 구성하는 단위 활동으로 물리적 또는 논리적 단위로 품질검토 항목 -> 보고서
3) 스탭 : WBS의 워크 패키지, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 -> 보고서 구성요소
9. KDD
- 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스.
10. KDD 분석 절차
1) Selection : Data와 Target Data 사이
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
- 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
- 데이터마이닝에 필요한 target Data를 구성하여 분석에 활용
2) Preprocessing : Target Data와 Preprocessed Data 사이
- 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋 정제
- 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행
3) Transformation : Preprocessed Data와 Transformed Data 사이
- 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터를 변경하는 단계
- Training data와 test data로 데이터를 분리하는 단계
4) Data Mining : Transformed Data와 Patterns 사이
- 학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택
- 적절하 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과 산출
5) Interpretation / Evaluation : Patterns와 Knowledge 사이
- 데이터마이닝 결과에 대한 해석과 평가
- 분석 목적과의 일치성 확인
11. CRISP-DM 분석 방법론
-주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA) 주도
- 계층적 프로세스 모델로 4개 레벨로 구성
12. CRISP-DM의 4레벨 구조
- Phases -> Generic Tasks -> Specialized Tasks -> Process Instances
13. CRISP-DM 프로세스
1) 업무이해(Business Understanding)
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 데이터 분석을 위한 문제정의
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 등
2) 데이터 이해(Data Understanding)
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3) 데이터 준비(Data Preparation)
- 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단게
- 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
4) 모델링(Modeling)
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 과적합(Overfitting) 문제를 확인
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 등
5) 평가(Evaluation)
- 모델링 결과가 프로젝트 목적에 부합하는지 펴가하는 단계
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6) 전개(Deployment)
- 모델링과 평가 단계를 통해 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
- 모니터링과 모델의 유지보수 계획 마련
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
14. KDD와 CRISP-DM 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 | 데이터의 이해 |
데이터 전처리 | |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
15. 빅데이터 분석의 계층적 프로세스
1) 단계(Phase)
- 프로세스 그룹을 통해 완성된 단계별 산출물 생성
- 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통해 통제
2) 태스크(Task)
- 각 단계는 여러 개의 태스크로 구성
- 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
3) 스탭(Step)
- WBS의 워크 패키지에 해당되고 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
16. 빅데이터 분석 방법론 5단계
1) 분석기획
- 비지니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
2) 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
3) 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영방안 수립
4) 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
5) 평가 및 전개
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
17. 텍스트 데이터 분석
- 형태소 분석
- 키워드 도출
- 토픽 분석
- 감성 분석, 의견 분석
- 네트워크 분석
18. 탐색적 분석
- EDA
- 통계분석
- 연관성 분석
19. 분석과제를 도출하기 위한 방식
1) 하향식 접근 방법(Top Down Approach)
- 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 해결방안을 탐색
- 데이터 분석의 타당성 평가를 통해 본석 과제를 도출하는 과정으로 구성
2) 상향식 접근 방법(Bottom Up Approach)
- 상향식 접근 방식의 데이터 분석은 비지도학습 방법에 의해 수행(Unsupervised Learning)
- 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것
- 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링 등
Known | Unknown | |
Known | Optimization | Insight |
Unknown | Solution | Discovery |
Top-Down Approach (Problem Solving) |
Bottom-Up Approach (Problem Creation) |
20. 비즈니스 모델 기반 문제 탐색
- 비즈니스모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객, 규제와 감사, 지원 인프라로 나눔
1) 업무
- 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출
2) 제품
- 생산 및 제공하는 제품 서비스를 개선하기 위한 관련 주제 도출
3) 고객
- 제품서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
4) 규제와 감사
- 제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출
5) 지원 인프라
- 분석을 수행하는 시스템 영역 및 이를 운영관리하는 인력의 관점에서 주제 도출
21. 분석 기회 발굴의 범위 확장
1) 거시적 관점
- STEEP(Social, Technological, Economic, Environmental, Political)
2) 경쟁자확대
- 대체재(SUbstitute)
- 경쟁자(Competitor)
- 신규 진입자(New Entrant)
3) 시장니즈 탐색
- 고객(Customer)
- 채널(Channel)
- 영향자(Influencer)
4) 역량의 재해석
- 내부 역량(Competency)
- 파트너와 네트워크(Partners&Network)
22. 타당성 검토
- 경제성
- 데이터
- 기술
23. 프로토타이핑 접근법
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
- 하향식 접근 방식은 문제가 정형화되어 있고 문제 해결을 위한 데이터가 완벽하게 조직에 존재할 경우 효과적
- 프로토타이핑 접근법은 상향식 접근 방식
24. 분석과제 관리를 위한 5가지 주요 영역
1) Data Complexity(데이터 복잡성)
2) Data Size(데이터 크기)
3) Accuracy&Precision(정확도와 정밀도)
4) Analytic Complexity(분석 복잡성)
5) Speed(속도)
25. 빅데이터 4V
- Volume
- Velocity
- Variety
- Value
26. 포트폴리오 사분면 분석을 통한 과제 우선순위 선정
- 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면
- 시급성에 둔다면 3->4->2 순
- 난이도로 둔다면 3->1->2
27. 분석 거버넌스 체계 구성 요소
1) 분석 기획 및 관리 수행 조직
2) 과제 기획 및 운영 프로세스
3) 분석관련시스템
4) 데이터
5) 분석교육/마인드 육성체계
28. 분석 준비도
- 분석업무
- 분석인력,조직
- 분석 기법
- 분석 데이터
- 분석 문화
- 분석 인프라
29. 분석 성숙도
- 도입, 활용, 확산 최적화
-비즈니스, 조직 및 역량, IT
30. 데이터 거버넌스 체계
- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것
31. 데이터 거버넌스 구성요소
1) 원칙(Principle)
- 데이터를 유지관리하기 위한 지침과 가이드
- 보안, 품질 기준, 변경관리
2) 조직(Organization)
- 데이터를 관리할 조직의 역할과 책임
- 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
3) 프로세스(Process)
- 데이터 관리를 위한 활동과 체계
- 작업 절차, 모니터링 활동, 측정 활동
32. 데이터 거버넌스 체계
1) 데이터 표준화
2) 데이터 관리 체계
3) 데이터 저장소 관리
4) 표준화 활동
3과목
1. SNA 분석
- 사회연결망 분석
2. 기술통계
- 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
3. 추론통계
- 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
4. 데이터마이닝
- 대표적인 고급 데이터 분석법
- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법
5. 래틀(Rattle)
- GUI가 패기지와 긴밀하게 결합돼 있어 정해진 기능만 사용 가능해 업그레이드가 제대로 되지 않으면 통합성에 문제가 발생
6. 주성분분석
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없거나 낮아서 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만듦
- 여러 변수들 간에 상관관계와 연관성을 이용해 소수의 주성분으로 차원을 축소함을 목적
- 주성분분석은 대개 4개 이상은 넘지 않음
- 제1주성분, 제 2주성분, 제 3주성분 등
- 주성분의 선택 방법은 누적기여율(cumulative proportion)이 85%이상이면 주성분의 수로 결정
- scree plot을 활용하여 주성분 수 선택
7. 요인분석
- 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
- 모두 데이터를 축소하는데 활용
8. 데이터마이닝의 분석 방법
1) 지도학습
- 의사결정나무
- 인공신경망
- 일반화선형모형
- 회귀분석
- 로지스틱 회귀분석
- 사례기반 추론
- 최근접 이웃법(KNN)
2) 비지도학습
- OLAP
- 연관성 규칙발견
- 군집분석
- SOM
9. 분석 목적에 따른 작업 유형과 기법
1) 분류 규칙
- 회귀분석, 판별분석, 신경망, 의사결정나무
2) 연관규칙
- 동시발생 매트릭스
3) 연속규칙
- 동시발생 매트릭스
4) 데이터 군집화
- K-Means Clustering
10. 홀드아웃(Hold-out) 방법
- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 training과 test set으로 분리하여 사용
11. 교차확인방법(Cross-validation)
- 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단으로 검증용으로 설정하여 학습
- k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용
12. 성과분석
1) 정분류율(Accuracy)
Accuracy = TN + TP / TN + TP + FN + FP
2) 오분류율(Error Rate)
1 - Accuracy = FN + FP / TN + TP + FN + FP
3) 특이도(Specificity)
Specificity = TN / TN + FP -> (TNR : True Negative Rate)
4) 민감도(Sensitivity)
Sensitivity = TP / TP + FN -> (TPR : True Positive Rate)
5) 정확도(Precision)
Precision = TP / TP + FP
6) 재현율(Recall) : 민감도와 같음
Recall = TP / TP + FN
7) F1 Score
F1 = 2 * (Precision * Recall) / (Precision + Recall)
13. ROC Curve
- 가로축을 FPR(False Positive Rate = 1 - 특이도)값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)값으로 두어 시각화한 그래프
- 2진 분류에서 모형의 성능을 평가하기 위해 많이 사용되는 척도
- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고, 잘못 예측한 비율은 낮음을 의미
- ROC곡선 아래의 면적을 의미하는 AUROC(Area Under ROC)값이 크면 클수록 모형의 성능이 좋다고 평가
14. 과적합, 과대적합(Overfitting)
- 모형이 학습용 데이터를 과하게 학습하여 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터 혹은 다른 데이터에 적용할 때는 성능이 떨어지는 현상
15. 과소적합(Underfitting)
- 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우를 의미
16. 분류기법
- 회귀분석, 로지스틱 회귀분석
- 의사결정나무
- CART
- C5.0
- 베이지안 분류
- 인공신경망
- 지지도벡터기계(SVM)
- K 최근접 이웃(KNN)
- 규칙기반의 분류와 사례기반 추론
17. 로지스틱 회귀분석
- 반응변수가 범주형인 경우 적용되는 회귀분석모형
- 모형의 적합을 통해 추정된 확률을 사후확률이라고 한다.
- 카이제곱 검정 사용
- 최대우도추정법 사용
- glm()함수를 호라용하여 로지스틱 회귀분석 실행
18. 선형회귀분석
- 종속변수 : 연속형 변수
- 계수 추정법 : 최소제곱법
- 모형 검정 : F-검정, T-검정
19. 의사결정나무(Decision Tree)
- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 입력값에 대하여 출력값을 예측하는 모혀으로 분류나무와 회귀나무로 분류
20. 의사결정나무의 활용
1) 세분화
2) 분류
3) 예측
4) 차원축소 및 변수선택
5) 교호작용효과의 파악
21. 의사결정나무의 특징
- 모델을 만드는데 계산적으로 복잡하지 않음
- 대용량 데이터에서도 빠르게 만들 수 있음
- 비정상 잡음 데이터에 대해서도 민감함이 없이 분류
- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음
- 설명변수나 목표변수에 수치형변수와 범주형 변수 모두 사용 가능
- 모형 분류 정확도가 높음
- 새로운 자료에 대한 과대적합이 발생할 가능성 높음
- 분류 경계선 부근의 자료값에 대해 오차가 큼
- 설명변수 간의 중요도를 판단하기 쉽지 않음
22. 지니지수
- 노드의 불순도를 나타내는 값
- 지니지수의 값이 클수록 이질적이며 순수도가 낮음
23. 엔트로피 지수
- 엔트로피 지수의 값이 클수록 순수도가 낮음
24. CART
- 불순도의 측도로 출력
- 목적변수가 범주형일 경우 지니지수를 이용
- 연속형인 경우 분산을 이용한 이진분리 사용
25. C4.5와 C5.0
- CART와는 다르게 각 마디에서 다지분리가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어남
- 불순도의 측도로는 엔트로피지수 사용
26. CHAID
- 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.
- 불순도 측도로는 카이제곱 통계량 사용
27. 앙상블(Ensemble)
- 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법
- 다중 모델 조합, 분류기 조합이 있다.
- 가장 안정적인 방법으로는 1-nearest neightbor, 선형회귀모형이 존재
- 가장 불안정한 방법으로는 의사결정나무가 있다.
28. 배깅
- 여러 개의 부트스트랩 자료를 생성하고, 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
- 부트스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미
- 배깅에서는 의사결정나무에서 가지치기(Pruning)을 하지 않고 최대로 성장한 의사결정나무들을 활용
29. 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
- 훈련오차를 빨리 그리고 쉽게 줄일 수 있음
30. 랜덤포레스트
- 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 입력변수가 많은 경우 높은 정확도를 보임
31. 활성화 함수(Activation Function)
1) SigMoid 함수
2) Step 함수
3) ReLu 함수
4) softmax함수
32. SOM(Self Organizing Map)
- 자가조직화지도 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져 있음
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
33. 연관분석
- 장바구니분석, 서열분석이라고 부름
- If A then B : 만일 A가 일어나면 B가 일어난다.
34. 연관규칙의 측도
1) 지지도(support)
- 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의
- A and B / 전체
2) 신뢰도(confidence)
- P(A and B) / P(A)
- 지지도 / P(A)
3) 향상도(Lift)
- P(A and B) / P(A) * P (B)
- 신뢰도 / P(B)
35. Apriori 알고리즘
- 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산하는 것
36. FP-Growth 알고리즘
- 후보 빈발항목집합을 생성하지 않고, FP-Tree(Frequent Pattern Tree)를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법
오답 시작
1. 미래의 빅데이터 요소
- 데이터, 기술, 인력
2. 사회기반 데이터베이스 활용 사례
- NEIS
- NEIS(NEIS, National Education Information System) : 2002년부터 사용된 교육행정 지원 시스템으로, 교육부와 17개 시/도 교육청, 산하기관과 174개 교육지원청, 1만 여개의 각급 학교를 아우르는 대형 네트워크이다.
3. 기업 내부 데이터베이스 활용 사례
- CRM
- ERP
- KMS
4. 트레이딩, 공급, 수요예측 관련 분야는 어느것에 해당되는가?
- 에너지
5. 데이터 정의
- 객관적 사실
- 추론, 예측, 전망, 추정을 위한 근거
- 단순한 객체로서의 가치와 다른 객체와의 상호관계속에서 가치를 갖는 것
6. 거버넌스 관리시 고려사항
- 분석 기획 및 조직
- 분석 프로세스
- IT 기술 마인드 육성 체계
7. 데이터사이언티스트 소프트 역량
- 창의적 사고
- 호기심
- 스토리텔링
- 커뮤니케이션
8. 빅데이터 분석에 경제성을 제공해 준 결정적인 기술
- 클라우드 컴퓨팅
9. SQL문 %
- %는 특정문자열이 있는 데이터 가져오기
- '_A%'인 경우 두 번째 글자가 A인 것 가져오기
10. 성공적인 분석ㅇ을 위해 고려해야 할 요소
- 분석 데이터에 대한 고려
- 활용 가능한 유즈케이스 탐색
- 장애 요소에 대한 사전 계획 수립
11. 하향식 접근방법 과정
- 기업의 내/외부 환경을 포괄하는 비즈니스 모델과 외부 사례를 기반으로 문제 탐색
- 식별된 비즈니스 문제를 데이터의 문제로 변화하여 정의
- 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해 타당성 평가
12. 하향식 접근법
- 문제탐색 -> 문제정의 -> 해결방안 탐색 -> 타당성 검토
13. 시장 니즈 탐색 관점에서 고객 니즈의 변화는 고객, 채널, 영향자들에 의해 진행
- Customer
- Channel
- Influencer
14. 분석 프로젝트 영역별 주요 관리 항목
- 범위
- 시간
- 원가
- 품질
- 통합
- 조달
- 자원
- 리스트
- 의사소통
- 이해관계자
15. 분석 과제 관리 프로세스
- 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스는 과제 발굴 단계에 속함
- 분석과제 중에 발생된 시사점과 분석 결과물을 풀로 관리하고 공유
- 과제 수행 단계에서는 팀 구성, 분석과제 식별, 분석과제 진행관리, 결과 공유 프로세스가 있음
- 분석과제로 확정되면 분석 과제를 풀로 관리하지 않음
16. 데이터 분석 조직의 유형 중 별도의 분석 조직이 없고 해당 업무부서에서 분석을 수행하는 방식
- 기능형
17. 명목척도
- 자료(data)의 측정 수준(level)에 따라 통계에 이용해야 할 요약 통계량이나 통계 검정법중에서 분류자료(질적자료)를 위한 명명의 방법으로 사용되는 척도
- 전화번호, 주소, 성별, 학년 등
18. 순서척도
- 순위, 서열 등
19. 구간척도
- 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 영점이 없어 두 관측 값 사이의 비율은 별의미 없음.
- 온도, 지수 등
20. 비율척도
- 절대적인 영점을 가지고 사칙연산이 가능
- 자연수, 몸무게 등
21. 데이터 마트
- 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다.
22. 이상치 구하는 방법
- Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)
23. 표본(Sample)
- 조사하기 위해 추출한 모집단의 일부 원소
- 통계자료 획득 방법 중 모집단을 조사하기 위해 추출한 집단
24. 마스킹
- 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보 할 수 있는 데이터변환 방법
25. 데이터의 무결성
- 데이터베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 혹은 수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것
26. 분석 준비도
- 분석 업무
- 분석인력,조직
- 분석 기법
- 분석 데이터
- 분석 문화
- 분석 인프라
27. 분석 성숙도
- 도입, 활용, 확산 최적화
-비즈니스, 조직 및 역량, IT
28. 비즈니스 모델 캔버스
- 업무
- 제품
- 고객
- 규제와 감사
- 지원 인프라
29. 순차분석
- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법
30. 표본 추출 방법
1) 단순랜덤 추출법
- 각 샘플에 번호를 부여하여 임의의 N개를 추출하는 방법
- 각 샘플은 선택된 확률이 동일하다.
2) 계통추출법
- 번호를 부여한 샘플을 나열하여 K개씩 n개의 구가으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 선택
- 즉, 임의 위치에서 k번째 항목을 추출하는 방법
3) 집락추출법
- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법
4) 층화추출법
- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
- 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출하는 방법
31. 정규분포
- 표준편차가 클 경우 퍼져보이는 그래프가 나타남
32. 표준정규분포
- 평균이 0이고 표준편차가 1인 정규분포
33. t분포
- 평균이 0을 중심으로 좌우가 동일한 분포
- 정규분포보다 더 퍼져있고, 자유도가 커질수록 표본이 커질수록 정규분포에 가까워짐
- 가설검정 시 많이 활용되는 분포
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
34. 카이제곱 분포
- 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
- 두 집단 간의 동질성 검정에 활용
- 범주형 자료에 대해 얻어진 관측값과 기대값 차이를 보는 적합성 검정에 활용
35. F분포
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 분포
- 자유도가 커질수록 정규분포에 가까워짐
36. 확률표본
- 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음
- 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐
37. 점추정
- 모수가 특정한 값일 것이라고 추정하는 것
- 표본의 평균, 중위수, 최빈값 등을 사용
38. 구간추정
- 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준) 필요
39. 제 1종오류와 제2종오류
H0가 사실이라고 판정 | H0가 사실이 아니라고 판정 | |
H0가 사실임 | 옳은 결정 | 제 1종오류 |
H0가 사실이 아님 | 제 2종오류 | 옳은 결정 |
40. 비모수검정
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정
- 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니 U검정, 런검정, 스피어만의 순위상관계수
41. 모수검정
- 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
42. 왜도
- 분포의 비대칭정도를 나타내는 측도
- 왜도가 양수일 경우 왼쪽으로 밀집되어 있고, 오른쪽으로 긴 꼬리를 갖는 분포
- 왜도가 음수일 경우 왼쪽으로 긴 꼬리를 갖고, 오른쪽으로 밀집되어 있는 분포
- 왜도가 양수일 경우 최빈값 -> 중앙값 -> 평균 순으로 되어 있음
- 왜도가 음수일 경우 평균 -> 중앙값 -> 최빈값 순으로 되어 있음
- 왜도가 0일 경우 평균=중앙값=최빈값
43. 첨도
- 분포의 중심에서 뾰족한 정도를 나타내는 측도
- 첨도가 양수일 경우 표준정규분포보다 더 뾰족함
- 첨도가 음수일 경우 표준정규분포보다 덜 뾰족함
- 첨도가 0일 경우 표준정규분포와 유사함
44. 막대그래프
- 범주형으로 구분된 데이터를 표현
45. 히스토그램
- 연속형으로 구분된 데이터를 표현
46. 데이터형
43. 산점도 그래프에서 확인할 수 있는 것
- 두 변수 사이의 선형관계
- 두 변수 사이의 함수관계
- 이상값 존재
- 집단 구분(층별 구분)
44. 공분산
- 공분산의 부호만으로 두 변수간의 방향성 확인 가능
- 공분산의 부호가 +이면 두 변수는 양의 방향성
- 공분산의 부호가 -이면 두 변수는 음의 방향성
45. 상관분석의 유형
1) 피어슨 상관계수
- 등간척도
- 연속형 변수
2) 스피어맨 상관계수
- 서열척도
- 순서형 변수
- 비모수적 방법
46. SSR = SST - SSE
47. 결정계수(R^2)
- 독립변수의 수가 많아지면 결정계수가 높아짐
- 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수(adjusted R-Squared) 활용
- 수정된 결정계수는 결정계수보다 작은 값으로 산출되는 특징
- 즉, Multiple R-squared에서 수정된 것이 adjusted R-squared
48. 데이터가 전제하는 가정
- 선형성
- 독립성
- 등분산성
- 비상관성
- 정상성
49. 로지스틱 회귀
- 종속변수가 범주형 데이터일 경우 적용
50. 전직선택법
- 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수로부터 차례로 모형에 추가
- 변수값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족
51. 후진제거법
- 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 제거할 변수가 없을 때의 모형 선택
- 변수의 개수가 많은 경우 사용하기 어려움
52. 단계선택법
- 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단
53. 정상성
1) 평균이 일정할 경우
- 모든 시점에 대해 일정한 평균을 가짐
- 평균이 일정하지 않은 시계열은 차분을 통해 정상화
2) 분산이 일정할 경우
- 분산도 시점에 의존하지 않고 일정해야 함
- 분산이 일정하지 않을 경우 변환을 통해 정상화
54. 정상 시계열 특징
- 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 가짐
- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐
- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없음
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t, s에는 의존하지 않음
55. 시계열자료 분석방법
- 회귀분석, Box-Jenkins 방법, 지수평활법, 시계열 분해법 등
56. 모분산의 추론
- 표본의 분산은 카이제곱 분포를 따름
- 분산이 동일한지를 비교하는 검정으로 F분포를 따름
57. 이산형 확률분포
- 이항분포
58. 연속형 확률분포
- 정규분포
- T분포
- F분포
59. 집락추출법
- 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법
60. R에서 상관계수 구하는 방법
- cor()
- rcorr()
- rcorr()함수를 사용하면 type 인자를 통해 피어슨과 스피어만 상관계수 선택 가능
61. 결정계수
- 총제곱의 합 중 설명된 제곱의 합의 비율
- 종속변수에 미치는 영향이 적은 독립변수가 추가되면 결정계수는 변함
- 결정계수의 값이 클수록 회귀선으로 실제 관찰치를 예측하는 데 정확성이 높아짐
- 독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같음
62. R에서 지원하는 분류 방법 패키지
- rpart
- rpartOrdinal
- randomForest
- party
- tree
- marginTree
- MapTree 등
63. ROC 도표
- 사후확률과 각 분류기준값에 의해 오분류 행렬을 만든 다음, 민감도와 특이도를 산출하여 도표에 도식화하여 평가하는 방식
- y축은 민감도, x축은 특이도
64. 정량 데이터
- 풍향, 습도, 1시간 강수량
65. 정성 데이터
- 기상특보
66. 암묵지와 형식지의 상호작용
- 연결화, 표출화, 공통화, 내면화
67. SQL 집계함수 데이터 타입
1) AVG : 수치형
2) SUM : 수치형
3) STDDEV : 수치형
68. 표출화
- 형식지 요소 중 하나로 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정
69. 글로벌 기업의 빅데이터 활용사례
1) 구글
- 실시간 자동 번역시스템을 통한 의사소통의 불편해소
2) 넷플릭스
- 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영
3) 월마트
- 소셜 미디어를 통해 고객 소비 패턴을 분석하는 월마트랩 운영
4) 자라
- 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측
70. 메타데이터
- 데이터에 관한 구조화된 데이터
- 다른 데이터를 설명해 주는 데이터
71. 인덱스
- 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
72. OLAP
- 다차원의 데이터를 대화식으로 분석하기 위한 기술
73. Business Intelligence
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
74. Business Analytics
- 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
75. CRM
- 단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향
76. ERP
- 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
77. 빅데이터 활용에 필요한 기본적인 3요소
- 데이터
- 기술
- 인력
78. 플랫폼
- 공동 활용의 목적으로 구축된 유, 무형의 구조물 역할을 수행한다.
79. 빅데이터가 만들어 내는 변화
- 질 -> 양
- 인과관계 -> 상관관계
- 사전처리 -> 사후처리
- 표본조사 -> 전수조사
80. 난수화
- 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지하는 기술
81. 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야
- 신용평가
82. 딥러닝과 관련 없는 분석 기법
- KNN
83. 책임 원칙의 훼손
- 범죄 예측 프로그램에 의해 범행 전에 체포
84. 데이터화 현상에 큰 영향을 미치는 기술
- 사물인터넷
85. 객체지향 DBMS
- 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는 데이터베이스 관리 시스템
86. 정보
- 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료
87. 데이터 웨어하우스
- 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합
88. 데이터레이크
- 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다.
- 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문
- 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
89. 정량적 데이터
- 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터
90. SCM
- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성
91. 유전자 알고리즘
- 생명의 진화를 모방하여 최적해를 구하는 알고리즘
- 존 홀랜드가 1975년에 개발
- 최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?
- 진화를 모방한 탐색 알고리즘
92. 분석 기획 고려사항 중 장애요소
- 비용대비 효과의 적정한 비용
- 분석 모형의 안정적 성능 확보
- 조직 역량으로 내재화를 위한 변화 관리
93. 성공적인 분석을 위한 고려해야 할 요소
- 관련 데이터의 파악
- 비즈니스 케이스 확보
- 이해 저해 요소 관리
94. CRISP-DM 방법론의 모델링 단계에서 수행하는 Task
- 모델 테스트 계획 설계
- 모델 평가
- 모델링 기법 선택
- 모델 작성
95. 빅데이터 분석 방법론의 분석기획 단계 순서
- 프로젝트 범위 설정 -> 데이터분석 프로젝트 정의 -> 프로젝트 수행계획 수립 -> 데이터 분석 위험 식별
96. 빅데이터 분석 방법론에서 단계 간 피드백이 반복적으로 많이 발생할 수 있는 단계
- 데이터 준비 단계 -> 데이터 분석 단계
97. 데이터에 기반한 의사결정을 방해하는 요소
- 프레이밍 효과
- 고정관념
98. 비즈니스 모델 캔버스의 채널에 대한 기능
- 해당고객에게 접근하는 유통 채널 공급
- 고객에게 밸류 프로포지션을 전달
- 기업이 제공하는 상품이나 서비스에 대한 고객의 이해 높여줌
99. 비즈니스 모델 캔버스를 활용한 과제 발굴 방법 5가지
- 업무
- 제품
- 고객
- 규제와 감사
- IT 인프라
100. 데이터 타당성
- 데이터 존재 여부
- 분석 시스템 환경
- 분석역량에 대한 검토
101. 분석과제 정의서
- 분석과제 정의서에는 소스 데이터, 데이터 입수 및 분석의 난이도, 분석방법 등에 대한 항목이 포함되어야 함
- 더 나아가 분석 수행주기, 분석 결과에 대한 검증 오너십, 상세 분석 과정 정의
102. ROI 관점에서 빅데이터의 핵심 특징에서 투자비용 요소
- Volume
- Velocity
- Variety
103. ROI 관점에서 빅데이터의 핵심 특징에서 비즈니스 효과 요소
- Value
104. 과제 중심적인 접근 방식
- Speed & Test
- Quick-Win
- Problem Solving
105. 장기적인 마스터 플랜 방식
- Accuracy & Deploy
106. 데이터 표준화
- 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성된 데이터 거버넌스 체계
107. 데이터 분석을 위한 조직 구조 - 집중구조
- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음
108. 분석 마스터 플랜 수립에서 과제 우선순위 결정
- 전략적 중요도, ROI, 실행 용이성은 분석과제 우선순위 결정에 고려할 사항
- 시급성과 전략적 필요성은 전략적 중요도의 평가 요소
- 적용 기술의 안전성 검증은 기술 용이성의 평가 요소
109. ERD
- ERD는 운영 중이 데이터베이스와 일치하기 위하여 철저한 변경관리 필요
- 빅데이터 거버넌스는 산업분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성
110. 빅데이터를 활용한 비즈니스 영역 중장기적 대응 방안
- 분석 조직 및 인력에 대한 교육과 훈련
- 데이터 기반의 의사결정문화 정착
- 분석역량 강화를 위한 체계적인 계획 및 실행
111. Self Service Analytics
- Self Service Analytics의 주요 기능은 BI 도구, Ad hoc Report, OLAP, Visual Discovery, MachineLearning 등
- Self Service Analytics의 성공적인 적용을 위해 Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육 필요
- Self Service Analytics를 수행하기 위해 R, Python 등의 데이터 분석 언어와 많은 통계적 지식 필요
112. 시스템 테스트
- 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 안정성 확보
113. 사전영향평가
- 데이터 거버넌스 체계에서 데이터 저장소 관리란 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성
- 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함.
- 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용 가능
114. 문제정의단계
- 필요한 데이터 및 기법을 도출하기 위한 데이터 분석의 문제로의 변환 수행
115. 의사코드
- 분석 모델을 가동중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요
- 알고리즘 설명서는 시스템 구현단계에서 중요한 입력 자료로 활용되므로 필요시 의사코드 수준의 상세한 작성 필요
116. 분석과제 관리 프로세스는 크게 과제 발굴과 과제 수행으로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석과제 풀로 관리하면서 분석과제가 확정되는 분석과제 실행, 분석과제 진행 관리, 분석과제 결과 공유/ 개선의 분석관계 관리 프로세스를 수행
117.
- 데이터 거버넌스 체계에서 데이터 저장소 관리란 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성
- 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함.
- 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용 가능
118. 프라이밍효과
- 합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상
119. 하향식 접근방식
- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식
120. 모델링
- 분석용 데이터를 이용한 가설 설정을 통하여 통계모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
121. 능력 성숙도 통합모델
- 소프트웨어와 시스템공학의 역량 숙성도를 측정하기 위한 모델로 소프트웨어 품질보증과 시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로 1~5단계로 구성된 성숙도 모델
122. ISP
- 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ISP 수행
- 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터플랜 수립하는 절차
123. 데이터마이닝에서 평가되는 기준
- 정확도, 정밀도, 디텍트 레이트, 리프트 등
124. EDA의 4가지 주제
- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
125. 공간 분석
- 지도 위에 공간과 관계된 속성들을 다양한 표현으로 시각화하는 방법
126. 벡터
- 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합
127. R의 장점
- 오픈 소스
- 사용자들이 만든 다양한 패키지들을 공유하여 사용 가능함
- 최신 알고리즘을 패키지를 통해 활용하기 쉬움
- 함수형 언어
- 다양한 프로그램을 통해 자동화 가능
- 무료
128. "+"(2,3)
- 5 출력
129. STDEV는 표본의 표준편차
130. STDEVP는 모집단의 표준편차
131. 표준편차
- 분산에 루트
- sd()
- sqrt(var())
- var()^(1/2)
132. substr()
- 문자열 일부 추출
- substr(s,1,2) -> 1번째, 2번째 문자열 추출
133. 데이터 병합
- merget(df1, df2, by="공통 열 이름")
134. lapply
- 결과를 리스트 형태로 반환
135. sapply
- 결과를 벡터 또는 행렬로 반환
136. apply
- 1 행
- 2 열
137. tapply
- tapply(vec, factor, func)
- 데이터가 집단에 속해 있을 때, 합계/평균 구하기
138. 문자열 길이
- nchar("단어")
139. 요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음
140. 파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발
141. reshape
- melt()와 cast()라는 2개의 핵심 함수 있음
142. reshape
- 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구서할 수 있는 패키지
143. 휴면고객
- 많은 기업에서 평균거래주기를 3~4배 이상 초과하거나 다음 달에 거래가 없을 것으로 예상되는 고객
144. 다중대치법
- 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법
- 순서는 대치, 분석, 결합 순으로 총 3단계
145. ESD
- 평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘
146. rpart
- 데이터마이닝 모델링 분석 기법 중 CART와 유사한 트리를 생성하고 예측오차를 최소화할 수 있는 의사결정나무 기법의 패키지
147. 비지도학습
- 데이터마이닝의 중심이 되는 학습 방법 중 자료가 출력변수 없이 입력변수만 주어진 경우, 입력변수들간의 상호관계나 입력 자료값들 간의 관계를 탐색적으로 분석할 때 사용되는 학습방법
148. 신뢰도
- 연관성분석은 데이터 안에 존재하는 항목간의 연관규칙을 발견하는 과정이다. 연관성분석의 측도들 중 두 품목 A와 B의 지지도(Support)는 전체 거래 항목 중 항목 A와 항목 B가 동시에 포함되는 비율로 정의되며 전체 거래 중 항목 A와 항목 B를 동시에 포함하는거래가 어느 정도인지 나타내주어 이를 통해 전체 구매 경향을 파악할 수 있다. 그러나 지지도는 연관규칙 A->B와 B->A가 같은 지지도를 갖기 때문에 두 규칙의 차이를 알 수 없다. 이에 대한 평가 측도는
149. 다차원척도법
- 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법
150. 통계분석 방법에는 크게 (ㄱ)와 (ㄴ)이 있는데 (ㄱ)은 수집된 자료를 이용해 대상 집단에 대한 특성값(모수)이 무엇인지를 추측하는 것을 의미하고 (ㄴ)은 수집된 자료를 정리, 요약하기 위해 평균, 표준편차, 중위수, 최빈값 등과 다양한 그래프를 통해 대상 집단을 분석하는 방법
- ㄱ : 통계적추론
- ㄴ : 기술통계
151. CART
- 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무
152. 워드클라우드
- 빈도가 높고 핵심어 일수록 큰 글씨로 중심부에 표현되며, 어떤 말을 하고 있는지 한 눈에 볼 수 있도록 단어들이 구름처럼 만든 비주얼 분석도구
153. 분류
- 어떤 객체가 불량인지 우량인지 또는 생존하느냐 못하느냐와 같이 0과 1로 구분하는데 활용되거나 A,B,C,D 또는 1등급, 2등급, 3등급 중에 어느 등급에 속하는지와 같이 정해진 범주로 분류하는데 사용되는 데이터마이닝 분석방법
154. 주성분분석
- 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합을 해 변수를 축약하는데 사용되는 분석방법
155. NaN(Not a Number)
- R 명령의 결과 : 0/0
156. 학급 내 국어, 영어, 수학, 과학 석차로 구성된 데이터셋의 명이 test라고 할 때 상관관계를 분석하고자 한다. R을 활용하여 프로그래밍
- cor(test)
- rcorr(as.matrix(test), type=“spearman”)
157. 앙상블 기법
- 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습이라고 한다. 여러 분류기들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
158. Apriori 알고리즘
- 어떤 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘
159. ROC Curve
- 분류 모형의 성능을 평가하기 위하여 x축에는 (1-특이도), y축에는 민감도를 나타내어 이 두 평가값의 관계를 나타낸 그래프
160. EM 알고리즘
- 혼합분포군집은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도추정에 사용되는 알고리즘
161. SOM
- 코호넨에 의해 제시되었느며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법
162. 특이도
- 오분류표를 활용하여 모형을 평가하는 지표 중 범주 불균형을 가지고 있는 데이터에 대한 중요한 범주만을 다루기 위해 사용되는 지표로 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 지표
163. 구간추정
- 구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것
- 실제 모집단의 모수는 신뢰구간에 포함되지 않아도 된다.
164. 점추정
- 표본의 정보로부터 모집단의 모수를 하나의 값으로 추청하는 것
165. 표본오차
- 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로 발생하는 오차
166. 표본편의
- 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
- 확률화에 의해 최소화하거나 없앨 수 있음
167. 확률화
- 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미
- 확률화 절차에 의해 추출된 표본을 확률표본이라 함
168. 구간척도
- 측정 대상이 갖고 있는 속성의 양을 측정하는 것
- 구간이나 구간 사이의 간격이 의미가 있는 자료
169. 비율척도
- 순서뿐만 아니라 그 간격도 의미가 있음
- 0이 절대적인 의미를 가짐
170. 이산형 확률변수 기대값
- 시그마 xf(x)
171. 연속형 확률변수 기댓값
- 인테그럴 xf(x)dx
172. p-value
- 귀무가설이 옳다는 가정 하에서 실제 관측된 값보다 대립가설을 지지하는 방향으로 검정통계량이 치우쳐 나타날 확률
173. df
- data of freedom
- 자유도
- n-1
174. 비모수 검정
- 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다.
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다.
- 분포의 모수에 대한 가설을 설정하지 않고 분포의 형태에 대해 가설을 설정
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정
175. 파레토그림
- 명목형 자료에서 중요한 소수를 찾는데 유용한 방법
176. 스피어만 상관계수
- 서열척도로 측정된 변수간 관계 측정
- 순서형 변수 사용
- 비선형적인 상관관계 나타낼 수 있음
- 비모수적 방법
177. 피어슨 상관계수
- 두 변수 간의 선형관계의 크기 측정
- 연속형 변수에 사용하며 정규성을 가정
178. 다중회귀모형이 통계적으로 유의미한지 확인하는 방법
- F통계량 확인
179. 결정계수
- 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율
- 입력 변수가 증가하면 결정계수도 증가
- 다중 회귀분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소
180. 시계열분석
- 평균이 일정
- 모든 시점에 대해 일정한 평균을 가짐
- 분산도 시점에 의존하지 않음
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않음
181. 전체 변이 공헌도 방법
- 전체 변이의 70~90% 정도가 되도록 주성분의 수를 결정
182. Scree graph를 이용하는 방법
- 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 원만해지는 지점에서 1을 뺀 개수를 주성분의 개수로 선택
183. 시계열을 구성하는 4가지 요소
- 추세(경향)요인
- 계절요인
- 순환요인
- 불규칙요인
184. 시계열 데이터의 분석 절차 순서
1) 시간 그래프 그리기
2) 추세와 계절성 제거
3) 잔차 예측
4) 잔차에 대한 모델 적합
5) 예측된 잔차에 추세와 계절성을 더하여 미래 예측
185. Lasso
- 규제 방식 L1 규제
- lambda 값으로 패널티 정도 조정
- 자동적으로 변수선택
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티를 부여하는 방식
186. Ridge
- 규제 방식 L2 규제
- 절대값을 0에 가깝게 하도록 함
187. 교차분석
- 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있음
- 범수의 관찰도수에 비교될 수 있는 기대도수 계산
- 기대빈도가 5 미만인 셀의 비율이 20%를 넘으면 카이제곱분포에 근사하지 않으며 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용
- 두 문항 모두 범주형 변수일 때 사용되는 분석
- 두 변수 간의 관련성을 보기 위해 실시
188. 시계열 데이터
- 시계열 데이터의 모델링은 탐색 목적과 예측 목적으로 나뉨
- 짧은 기간 동안의 주기적인 패턴을 계절변동이라 함
189. 다차원척도법(MDS)
- 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석 방법
- 데이터 속에 잠재한 패턴을 찾기위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현
- 스트레스 값이 0.05이하이면 적합정도가 아주 좋은 것으로 해석하고 반복 분석과정을 중단
190. 계량적 다차원척도법
- 비율 척도, 구간 척도의 데이터를 활용하고 비계량적 다차원척도법은 순서척도의 데이터 활용
191. 정상시계열
- 시점에 상관없이 시계열의 특성을 일정하다는 것을 의미하는 용어
192. 자기회귀모형(AR)
- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
- 모형에 사용하는 시계열 자료의 시점에 따라 1차 2차 등을 사용하나 정상시계열 모형에서는 주로 1,2차를 사용함
193. 중앙값
- 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치
- 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법
194.
'자격증 > ADSP' 카테고리의 다른 글
데이터분석 준전문가 ADSP 27회 합격 후기 (0) | 2020.12.22 |
---|---|
데이터분석 준전문가 ADSP 27회 후기 및 주관식 기출문제 (0) | 2020.11.23 |
ADSP 3과목 요약 (0) | 2020.11.21 |
최근댓글