1. 향상도
- 향상도가 1을 넘으면 서로 양의 상관관계
- 향상도가 1보다 작으면 서로 음의 상관관계
- 향상도가 1이면 서로 독립전인 관계
2. Apriori 알고리즘
- 연관성 분석 모형의 알고리즘
3. 빅데이터 분석 모형을 검증하는 대표적인 방법
- Holdout Cross Validation
- K-fold Cross Validation
4. 평균 제곱근 오차(RMSE, Root Mean Squared Error)
- 평균제곱오차(MSE)의 제곱근값
5. 빅데이터 분석 모형의 개발 및 운영 절차
- 분석목적 정의 -> 가설검토 -> 데이터 준비 및 처리 -> 모델링 및 분석 -> 성능평가 -> 운영
6. 상관분석
- 명목적 데이터 변수들 사이의 연관성 분석에 활용
- 두 집단 간의 평균 차이를 검정하는 경우 T검정 사용
- 범주형 변수 간의 차이를 검정하는 경우 카이제곱 검정 사용
- 변수들로 구성된 분류표 상의 발생빈도 이용
7. 분산분석
- 분산분석(ANOVA)은 두 개 이상의 집단 간 비교를 수행하고자 할 떄 집단 내의 분산 비교로 얻은 F 분포를 이용하여 가설검정 수행하는 방법
- F 검정 통계량 값으로 해석
8. 통계적 오류
- 제 1종 오류 : 귀무가설이 참인데 귀무가설을 기각할 경우
- 제 2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 경우
9. 적합도 검정에는 카이제곱분포 사용
10. 데이터 시각화의 주요 기능
- 설명
- 탐색
- 표현
11. 비교시각화
- 막대그래프와 히트맵, 버블 차트, 선그래프 이용
12. 빅데이터 시각화 3단계 프로세스
- 구조화
- 시각화
- 시각표현
13. Pixel-oriented 기술
- 각각의 데이터를 색상의 종류, 색의 크기, 투명도 등을 활용하여 데이터의 서로 다른 속성을 표현
14. 데이터 변수 형식
- 단변수 : 바 그래프, 파이 그래프등으로 표시
- 이변수 : 산점도(Scatter Plot) 표현
- 삼변수 : 산점도 매트릭스로 표현
- 다변수 : 평형좌표 플롯, 스타 플롯, 산점도 매트릭스 등으로 표현
15. 빅데이터 분석 프로세스 처리 과정
- 데이터 수집->데이터정제->분석모형구축->예측 및 모형업데이트->시각화
16. 비즈니스 인텔리전스
- 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법 의미
- 각 조직의 구성원에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계
17. 분석결과 보고서의 요약본 작성 과정
- 보고서 이해 -> 스토리보드 작성 -> 요약본 작성 -> 검토 및 수정
18. 빅데이터 분석결과를 평가하고 피드백하여 현장에 적용 및 검증하는 과정
-> 데이터 수집 -> 저장 -> 처리 -> 분석결과 평가-> 피드백 -> 현장 적용 및 검증
19. ERP(전사적지원관리)
- ERP는 정형 데이터에 속함
20. 데이터 크기
- Bit -> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB
21. ETL
- 데이터 공유를 위한 기법으로 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능을 주로 담당
22. 정보의 주요 특징
- 정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보
- 적시성 : 필요할 떄 이용 가능한 데이터
- 충분성 :
- 관련성 : 상황 및 주제와 관련된 데이터
- 규모의 적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨
- 비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함
23. 데이터 확보 계획의 수립 절차
- 분석목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 데이터 확보 계획 수립
24. 데이터 분석 프로젝트 수행 과정
- 분석과제 정의 -> 준비 및 탐색 -> 모델링 검증 -> 산출물 정리
25. 빅데이터 분석 프로세스
- 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용
26. 데이터 마이닝
- 다양한 기법을 활용하여 대규모로 저장된 데이터 안에서 체계적인 통계적 규칙이나 패턴, 새로운 지식을 찾아낸다.
27. 데이터마이닝 기법
- Decision Tree
- K-means Clustering
- Text Mining
28. 모형화
- 주어진 문제의 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화하는 과정
29. 빅데이터 분석목표정의서
- 데이터 분석의 기본 정보
- 성과측정 방법
- 데이터 관련 정보
- 분석 타당성 검토의견 등
30. 빅데이터 분석에 대한 기획 의도
- 빅데이터 요건 정의서
31. 비즈니스 모델
- 기업이 수익을 얻기 위한 일련의 활동
- 수익모델
32. 빅데이터 비즈니스 모델의 적합성을 판별하는 기준
- 수익성
33. 정보
- 개인이나 조직이 의사결정을 할 떄 사용할 수 있도록 의미 있고 유용한 형태로 가공, 처리된 데이터
- 지식으로서 불확실성을 인식하거나 평가하고 이를 줄이기 위해 사용
34. 데이터
- 정보시스템에 저장된 외부의 원천 데이터
35. 데이터마이닝
- 분류
- 클러스토링
- 연관성
- 연속성 및 예측 기법
36. 데이터베이스의 네가지 주요 특징
- ACID 원자성, 일관성, 고립성, 지속성
- Atomicity, consistency, isolation durability
37. 분석목표 수립 단계에서 빅데이터 분석목표 정의서 작성
38. 빅데이터 요건 정의서는 도메인 이슈 도출 단계에서 작성
39. 크론바하 알파값
- 실문문항 답변에 대한 신뢰도 평가
40. 프로젝트 계획 수립 단계에서 작업분할구조도(WBS) 작성
41. 빅데이터 분석 로드맵 수행 과정
- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분
42. 빅데이터 분석 프로젝트 소요비용
- 인건비
- 하드웨어 및 소프트웨어 비용
- 기타 성과측정비, 추가 인건비 및 자문료
43. 빅데이터 산업 구조의 구성 요소
- 인프라 : 하드웨어, 소프트웨어를 의미
- 서비스 : 교육, 컨설팅 등의 서비스
44. 비즈니스 프로세스
- 다양한 시스템과 비즈니스 요소들에 넓게 분산되어 있고 커스터마이즈 되어 있는 복잡하고 역동적인 실체
- 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합
45. 빅데이터 서비스 모델
- 하드웨어 레벨 : 빅데이터 저장
- 소프트웨어 레벨 : 데이터 분석
- 애플리케이션 레벨 : 서비스 적용을 통한 빅데이터 활용
46. 외부 데이터의 수집을 위해 우선적으로 고려되어야 하는 비용
- ETL 솔루션 구매 비용
47. 시계열 데이터
- 정형 데이터
48. 반정형 데이터
- HTML, XML, JSON, RSS, 웹로그, 센서 데이터 등
49. 정형 데이터 수집 기술
- API, ETL, FTP
- ODBC
50. 비정형 데이터 수집 기술
- Crawler, HTTP Protocol 수집, Parsing 기법, API
51. 외부데이터
- SNS
- 소셜 데이터
- VOC 접수 등 마케팅 관련 데이터
- 외부 시스템에 원천 데이터 존재
- 웹페이지, 소셜 데이터, 문서 등
52. 내부데이터
- 내부 시스템에 원천 데이터 존재
- 파일 시스템, DBMS, 센서 등
53. 큐브 데이터
- 특정시간 동안 저장된 로그 데이터 정보
54. JSON
- 자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식
55. 데이터 웨어 하우스
- 전사적인 차원에서 대규모로 데이터를 구축하는 저장소
56. 데이터 마트
- 사용자 부서 단위에서 주로 소규모로 구축해 사용하는 자료 저장소
57. EAI(Enterprise Application Integraion)
- 기업 내 또는 기업 간의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하는 기술
58. 웹마이닝
- 인터넷을 이용해 제공되는 웹서비스의 다양한 패턴을 발견하는 것
- 웹을 이용한 마이닝, 웹콘텐츠 마이닝, 웹구조 마이닝 등
- 로그분석을 사용하는 기법
59. 웹콘텐츠 마이닝
- 웹페이지에서 유용한 데이터, 정보, 지식을 마이닝하는 방법
60. 데이터 품질 점검 항목
- 데이터의 분량
- 데이터의 정확성
- 데이터의 일관성
61. MongoDB
- NOSQL 저장 시스템으로 반정형 또는 비정형 데이터 저장하기에 적합
62. Sybase, MS-SQL, Oracle DB
- 정형 데이터 저장하기에 적합
63. 튜플 = 레코드, 튜플의 수 = 카디널리티 수
64. 애트리뷰트 -> 속성, 디그리(차수)
65. 분산파일시스템
- 저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션 지원
- 사용자에게 고성능의 Fault-tolerant 환경 ㅈ공
66. 키-밸류 데이터베이스
- NoSQL 데이터 저장 방식 중 키와 해당 키 값의 쌍으로 저장하는 데이터 모델
67. Sharding 기법
- 데이터 저장 및 관리 시 높은 성능과 가용성 보장
- NoSQL에서 주로 사용되며, 기존 관계형 데이터베이스 시스템에서의 파티셔닝 개념과 동일
- 대용량 데이터베이스에서 데이터를 수평분할 하는 방법
68. MongoDB에서 샤딩 기법 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버
- Config 서버
69. 빅데이터를 저장 및 처리하기 위한 하드웨어 설계 방법
- 분산, 병렬, 클라우드
70. 클라우드
- 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술
71. 하둡
- 빅데이터를 효율적으로 저장하고 신속하게 분석하기 위해 사용되는 SW
- 아파치 재단에서 관리
72. 하둡에서 수집된 데이터를 저장하는 기술
- HDFS
73. 하둡 시스템
- HDFS와 맵리듀스 시스템으로 이루어짐
74. 맵리듀스에서의 데이터 처리 과정
- 맵 -> 셔플 -> 리듀스
75. YARN
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
- 마스터노드/슬레이브 노드 Resource Manager/Node Manager
76. Saas
- 사용자가 인터넷을 통해 서비스 제공자에게 접속하여 애플리케이션을 사용하고 사용한 만큼 비용을 지불
- 서비스가 운용되고 있는 서버에 대해 운영체제, 하드웨어, 네트워크는 제어할 수 없고 오직 소프트웨어만 사용
77. Iaas
- 클라우드 컴퓨팅 서비스에서 고성능 컴퓨팅이 가능한 서버나 대용량 저장장치 제공
78. PaaS
- 사용자가 서비스 제공자로부터 개발할 수 있는 환경을 제공 받고, 개발이 완료된 애플리케이션을 제 3의 사용자에게 제공하는 서비스
79. 오피니언 마이닝
- 신문기사, 뉴스, 인물, 이슈, 이벤트 등과 같은 관련된 원천 데이터에서 특정 주제에 대한 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출
80. 아파치 sqoop
- 테이블과 같이 고정된 Column에 데이터 저장
- 정형 데이터 수집
- 하둡 플랫폼과 연계하여 관계형 DB 통합 분석 가능
- 모든 적재 과정을 자동화하고 병렬처리 방식으로 작업
- 명령어는 인터프리터에 의해 한 번에 하나씩 실행
81. 아파치 Flume
- 안정적이고 신뢰성 있는 분산 서비스 환경 제공
- 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조 가짐
- 네트워크 트래픽, 이메일 메시지 등 대량의 이벤터 데이터 전송 가능
- 주로 로그 및 센서 등의 반정형 데이터 수집용으로 사용
82. Scrapy
- 비정형 데이터의 수집
- 파이썬 기반 프레임워크 활용
83. 아파치 sqoop 데이터 수집 절차
- 테이블 메타 데이터 수집 -> 자바 클래스 생성 -> Map Task 실행 -> 데이터 import
84. scraping
- 크롤러와 달리 하나의 웹문서나 웹사이트에 대한 정보 수집 기술
- 웹문서의 정보를 수집
85 RSS
- XML 기반의 콘텐츠 배급 프로토콜을 이용하여 웹기반의 최신 정보를 공유하고 해당 콘텐츠의 정보를 수집하는 기술
86. Open API
- 실시간 데이터 수집을 이용하여 사용
- 다양한 애플리케이션 개발이 가능하도록 개발자와 사용자에게 공개된 기술
87. 측정
- 관심있는 대상을 데이터 분석목적에 마게 데이터화하는 것
88. 계량적 변수(Quantitative Variable)
- 수치로 측정할 수 있는 데이터를 저장하기 위한 변수
89. 비계량적 변수(Qualitative Variable)
- 수치로 측정할 수 없는 데이터
90. 연속적 변수
- 기업의 생산량, 매출액 등과 같은 연속적인 모든 값을 가지는 데이터를 저장하기 위한 계량 변수
91. 비율 척도
- 계량적 변수를 측정하는 데 주로 사용
- 금액, 거리, 무게, 시간 등
- 사칙연산 가능
92. 등간척도
- 절대 영점이 없는 자료
93. 데이터의 존재론적 특성 구분
- 계량 데이터
- 비계량 데이터
94.빅데이터 저장 시스템 요구사항 분석 절차
- 요구사항 수집->분석->명세->검증
95. 총계
- 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터를 변환하는 과정
96. 변수변환
- 변숫값을 x라고 할 떄, 변숫값을 일괄 적용하여 새로운 변수를 생성하는 기법
97. binning 방법(구간화)
- 데이터 변환 작업을 위해 구간의 너비를 작게 하여 히스토그램을 표현하는 평활 기법
98. 데이터베이스를 설계하기 위해 데이터 표준화 및 모델링 단계에서 데이터로부터 추출되는 두가지 주요 요소
- Entitiy, Attribute
99. 개념적 설계
- ER 다이어그램을 활용하여 엔티티들 사이의 관계를 정의하는 단계
100. 논리적 설계
- ER 다이어그램을 기반으로 매핑 작업을 수행하고 관계형 스키마를 생성하는 설계 과정
101. 데이터 전처리
- 데이터 유형 변환
- 데이터 필터링
- 데이터 정제
102. 데이터 후처리
- 데이터 정규화
- 데이터 평활화
- 중복 데이터 검출
103. 카산드라
- 방대한 데이터를 처리하기 위해 분산 시스템을 이용하며, 오픈소스 DBMS로 페이스북에서 개발되었다
- 아파치 소프트웨어 재단의 프로젝트로 관리
- 자유 오픈소스 분산형 NoSQL사용
104. 정형데이터 일관성
- 데이터의 구조, 값, 표현 형태가 서로 일치
- 참조 무결성 유지
105. 잡음(Noise)
- 대상이 가지고 있는 속성값을 있는 그대로의 숫자 또는 기호에서 벗어나게 하는 원하지 않는 임의의 요소들의 개입될 수 있고 이로인해 대상이 잘못 측정되어 참값에서 벗어나는 경우의 데이터
106. 잡음을 제거하기위한 방법
- 구간화
- 군집화
- 회귀모형
107. Map
- 맵리듀스 분석 도구에서 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 기능
108. Reduce
- 맵리듀스 분석 도구에서 중복 데이터를 제거하고 원하는 데이터 추출하는 작업
109. Presto
- 페이스북에서 개발된 하둡을 위한 SQL 처리 에진
- SQL 언어를 사용하며 데이터를 빠르게 분석
110. Summingbird
- Storm과 하둡을 결합한 스트리밍 맵리듀스 ㅣ스템
- 배치 및 스트리밍 작업을 요구하는 어플리케이션 수행
111. Esper
- 실시간 처리용 인메모리 기술 활용
- 실시간 이벤트 처리를 위한 오픈소스, 자바 기반 소프트웨어
112. AWS의 특징 3S
- Simple
- Storage
- Service
113. 보삽법(Interpolation Method)
- 시계열 데이터에서 누락된 데이터 보완 시 활용
- 심한 변동을 나타내지 않는 변수의 추정 시 활용
- Contextual Information을 고려하여 결측치 보완
114. 모수
- 모집단의 특성을 나타내는 수치 자료
115. 정규성(중심극한정리)
- 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 따른다는 특성
116. 모집단
- 분석하고자 하는 모든 대상이 되는 집단
117. 통계적 추론
- 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정
118. 모수적 방법
- 중심극한정리를 이용한 정규성에 기반한 추론 방법
119. 비모수적 방법
- 정규성 검정 결과 표본들의 평균 분포가 정규분포가 아니고, 표본의 수가 10명 미만으로 소규모인 경우 적용되는 추론 방법
120. 군집 추출
- 모집단을 여러 군집으로 나눈 후, 군집들 중에서 하나의 군집을 선택하여 군집 내에 속한 데이터 전체 추출
121. 탐색적 데이터 분석(EDA)
- 데이터 집합이 실제로 어떤 정보를 포함하고 있는지를 파악하는 데 중점을 두고, 통계 기법, 시각화 등을 통해 데이터 집합의 주요 특징을 얻어내는 방식
122. 탐색적 데이터 분석 절차
- 분석목적 설정 -> 모집단 정의 -> 표본 추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용
123. 분산
- 관찰값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
124. 범위
- 최댓값과 최솟값의 차이
125. 공분산
- 두 확률변수 X, Y 편차의 곱의 합으로 구한다.
- 두 확률변수 X, Y 가 독립이면 공분산은 0이다.
- 공분산은 크기보다 +, -의 부호에 의미가 있는 값
- 크기를 고려하려면 공분산을 각각의 확률변수의 표준편차로 나눈 상관계수를 이용
126. 곡선 회귀모형
- 독립변수가 1개이고 종속변수와의 관계가 2차 함수 이상인 경우 사용되는 회귀분석 모형
127. 최소제곱법
- 표본 데이터를 이용하여 오차를 최소화하는 모수를 추정하는 방법
128. 머신러닝
- 코드로 정의되지 않은 동작 실행 능력
- 컴퓨터가 학습할 수 있는 알고리즘과 기술 개발 분야
- 최초 학습에 들인 시간 및 노력보다 더 빠르고 수월하게 배운 것을 수행
- 정확한 작업 수행을 위한 올바른 모델 구축
129. 혼돈행렬(Confusion Matrix)
- 분류 목적의 머신러닝 모형 성능 평가 시 활용
- 분류 정확도의 평가지표로 사용
- 분류의 예측 범주와 데이터의 실제 분류 범주 구분
- 교차표 형태로 표현
130. 혼돈행렬
1) 정분류율(Accuracy)
Accuracy = TN + TP / TN + TP + FN + FP
2) 오분류율(Error Rate)
1 - Accuracy = FN + FP / TN + TP + FN + FP
3) 특이도(Specificity)
Specificity = TN / TN + FP -> (TNR : True Negative Rate)
4) 민감도(Sensitivity)
Sensitivity = TP / TP + FN -> (TPR : True Positive Rate)
5) 정확도(Precision)
Precision = TP / TP + FP
6) 재현율(Recall) : 민감도와 같음
Recall = TP / TP + FN
7) F1 Score
F1 = 2 * (Precision * Recall) / (Precision + Recall)
131. Lasso
- 규제 방식 L1 규제
- lambda 값으로 패널티 정도 조정
- 자동적으로 변수 선택
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티 부여
132. Ridge
- 규제 방식 L2 규제
- 절대값을 0에 가깝게 하도록 함
133. 시계열 데이터의 분석 절차 순서
- 시간 그래프 그리기
- 추세와 계절성 제거
- 잔차 예측
- 잔차에 대한 모델 적합
- 예측된 잔차에 추세와 계절성을 더하여 미래 예측
134. 시계열을 구성하는 4가지 요소
- 추세(경향)요인
- 계절 요인
- 순환 요인
- 불규칙 요인
135. 시계열분석
- 평균이 일정
- 모든 시점에 대해 일정한 평균을 가짐
- 분산도 시점에 의존하지 않음
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않음
136. 결정계수
- 입력 변수가 증가하면 결정계수도 증가
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소
137. 자유도
- data of freedom
- n-1
138. 비율척도
- 0이 절대적인 의미를 가짐
139. SOM
- 코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법
140. ROC 커브
- x축에는 1-특이도, y축에는 민감도
- 아래 면적이 크면 좋은 성능
141. 프라이밍효과
- 합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상
142. 연속형 확률분포
- 정규분포
- t분포
- f분포
143. 이산형 확률분포
- 이항분포
144. 로지스틱 회귀
- 종속변수가 범주형 데이터일 경우 적용
145. SSR = SST - SSE
146. 피어슨 상관계수
- 등간척도
- 연속형 변수
147. 스피어맨 상관계수
- 서열척도
- 순서형 변수
- 비모수적 방법
148. F분포
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 분포
- 자유도가 커질수록 정규분포에 가까워짐
149. 카이제곱분포
- 두 집단 간의 동질성 검정에 활용
150. t 분포
- 자유도가 커질수록, 표본이 커질수록 정규분포에 가까워짐
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
151. 연관규칙의 척도
1) 지지도(Support)
- A and B / 전체
2) 신뢰도(Confidence)
- A and B / P(A)
3) 향상도(Lift)
- 신뢰도 / P(B)
- A and B / P(A) P(B)
152. 랜덤포레스트
- 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기를 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 입력 변수가 많으면 높은 정확도를 보임
153. 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형 만드는 방법
154. 지니지수
- 지니지수의 값이 클수록 순수도가 낮음
155. 엔트로피 지수
- 엔트로피 지수 값이 클수록 순수도 낮음
156. CART
- 목적변수가 범주형일 경우 지니지수 이용
157. 파생변수
- 자료 변환을 위해 사용되는 방법
- 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수
158. 다차원척도법
- 다차원 관찰값 또는 개체들 간의 거리, 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적
159. 데이터 분석 모형의 오류 분류
- 학습 오류, 훈련 오류
160. 홀드아웃 교차검증
- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분 후, 훈련집합을 이용하여 분석 모형을 구축하고 시험집합으로 모형의 성능을 평가하는 방법
161. 시뮬레이션
- 미래의 불확실한 상황을 확률적으로 모델링하여 예측하는 기법
162. 과대적합
- 사용된 예측 모형 함수가 학습 데이터세트 상의 모든 데이터를 오차가 없이 추정하는 예로 제한된 학습 데이터세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상
163. 과대적합
- 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 것은 불가
- 상대적으로 우수한 모형을 구분하여 사용해 성능을 올린다
- 예측오차와 교차 유효성 검사방법을 이용해 과대적합 방지
164. 독립변수
- 가설적 변수
- 원인적 변수
165. 교차 타당성을 검증하기 위한 교차분석에서 사용되는 검정통계량
- 카이제곱 검정 통계량
166. 메타 데이터
- 데이터에 대한 데이터
- 어떤 목적을 가지고 만들어진 데이터
167. t-검정
- 두 집단 사이 평균의 차이를 검정하는 방법
168. 독립성 검정
- 교차 타당성을 검증하기 위해 두 변수 간에 관련성이 있는지를 알아보기 위해 사용되는 검정 방법
169. 스피어만 상관계수
- 변수들의 순위를 고려하여 평가하는 상관계수1. 향상도
- 향상도가 1을 넘으면 서로 양의 상관관계
- 향상도가 1보다 작으면 서로 음의 상관관계
- 향상도가 1이면 서로 독립전인 관계
2. Apriori 알고리즘
- 연관성 분석 모형의 알고리즘
3. 빅데이터 분석 모형을 검증하는 대표적인 방법
- Holdout Cross Validation
- K-fold Cross Validation
4. 평균 제곱근 오차(RMSE, Root Mean Squared Error)
- 평균제곱오차(MSE)의 제곱근값
5. 빅데이터 분석 모형의 개발 및 운영 절차
- 분석목적 정의 -> 가설검토 -> 데이터 준비 및 처리 -> 모델링 및 분석 -> 성능평가 -> 운영
6. 상관분석
- 명목적 데이터 변수들 사이의 연관성 분석에 활용
- 두 집단 간의 평균 차이를 검정하는 경우 T검정 사용
- 범주형 변수 간의 차이를 검정하는 경우 카이제곱 검정 사용
- 변수들로 구성된 분류표 상의 발생빈도 이용
7. 분산분석
- 분산분석(ANOVA)은 두 개 이상의 집단 간 비교를 수행하고자 할 떄 집단 내의 분산 비교로 얻은 F 분포를 이용하여 가설검정 수행하는 방법
- F 검정 통계량 값으로 해석
8. 통계적 오류
- 제 1종 오류 : 귀무가설이 참인데 귀무가설을 기각할 경우
- 제 2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 경우
9. 적합도 검정에는 카이제곱분포 사용
10. 데이터 시각화의 주요 기능
- 설명
- 탐색
- 표현
11. 비교시각화
- 막대그래프와 히트맵, 버블 차트, 선그래프 이용
12. 빅데이터 시각화 3단계 프로세스
- 구조화
- 시각화
- 시각표현
13. Pixel-oriented 기술
- 각각의 데이터를 색상의 종류, 색의 크기, 투명도 등을 활용하여 데이터의 서로 다른 속성을 표현
14. 데이터 변수 형식
- 단변수 : 바 그래프, 파이 그래프등으로 표시
- 이변수 : 산점도(Scatter Plot) 표현
- 삼변수 : 산점도 매트릭스로 표현
- 다변수 : 평형좌표 플롯, 스타 플롯, 산점도 매트릭스 등으로 표현
15. 빅데이터 분석 프로세스 처리 과정
- 데이터 수집->데이터정제->분석모형구축->예측 및 모형업데이트->시각화
16. 비즈니스 인텔리전스
- 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법 의미
- 각 조직의 구성원에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계
17. 분석결과 보고서의 요약본 작성 과정
- 보고서 이해 -> 스토리보드 작성 -> 요약본 작성 -> 검토 및 수정
18. 빅데이터 분석결과를 평가하고 피드백하여 현장에 적용 및 검증하는 과정
-> 데이터 수집 -> 저장 -> 처리 -> 분석결과 평가-> 피드백 -> 현장 적용 및 검증
19. ERP(전사적지원관리)
- ERP는 정형 데이터에 속함
20. 데이터 크기
- Bit -> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB
21. ETL
- 데이터 공유를 위한 기법으로 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능을 주로 담당
22. 정보의 주요 특징
- 정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보
- 적시성 : 필요할 떄 이용 가능한 데이터
- 충분성 :
- 관련성 : 상황 및 주제와 관련된 데이터
- 규모의 적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨
- 비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함
23. 데이터 확보 계획의 수립 절차
- 분석목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 데이터 확보 계획 수립
24. 데이터 분석 프로젝트 수행 과정
- 분석과제 정의 -> 준비 및 탐색 -> 모델링 검증 -> 산출물 정리
25. 빅데이터 분석 프로세스
- 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용
26. 데이터 마이닝
- 다양한 기법을 활용하여 대규모로 저장된 데이터 안에서 체계적인 통계적 규칙이나 패턴, 새로운 지식을 찾아낸다.
27. 데이터마이닝 기법
- Decision Tree
- K-means Clustering
- Text Mining
28. 모형화
- 주어진 문제의 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화하는 과정
29. 빅데이터 분석목표정의서
- 데이터 분석의 기본 정보
- 성과측정 방법
- 데이터 관련 정보
- 분석 타당성 검토의견 등
30. 빅데이터 분석에 대한 기획 의도
- 빅데이터 요건 정의서
31. 비즈니스 모델
- 기업이 수익을 얻기 위한 일련의 활동
- 수익모델
32. 빅데이터 비즈니스 모델의 적합성을 판별하는 기준
- 수익성
33. 정보
- 개인이나 조직이 의사결정을 할 떄 사용할 수 있도록 의미 있고 유용한 형태로 가공, 처리된 데이터
- 지식으로서 불확실성을 인식하거나 평가하고 이를 줄이기 위해 사용
34. 데이터
- 정보시스템에 저장된 외부의 원천 데이터
35. 데이터마이닝
- 분류
- 클러스토링
- 연관성
- 연속성 및 예측 기법
36. 데이터베이스의 네가지 주요 특징
- ACID 원자성, 일관성, 고립성, 지속성
- Atomicity, consistency, isolation durability
37. 분석목표 수립 단계에서 빅데이터 분석목표 정의서 작성
38. 빅데이터 요건 정의서는 도메인 이슈 도출 단계에서 작성
39. 크론바하 알파값
- 실문문항 답변에 대한 신뢰도 평가
40. 프로젝트 계획 수립 단계에서 작업분할구조도(WBS) 작성
41. 빅데이터 분석 로드맵 수행 과정
- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분
42. 빅데이터 분석 프로젝트 소요비용
- 인건비
- 하드웨어 및 소프트웨어 비용
- 기타 성과측정비, 추가 인건비 및 자문료
43. 빅데이터 산업 구조의 구성 요소
- 인프라 : 하드웨어, 소프트웨어를 의미
- 서비스 : 교육, 컨설팅 등의 서비스
44. 비즈니스 프로세스
- 다양한 시스템과 비즈니스 요소들에 넓게 분산되어 있고 커스터마이즈 되어 있는 복잡하고 역동적인 실체
- 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합
45. 빅데이터 서비스 모델
- 하드웨어 레벨 : 빅데이터 저장
- 소프트웨어 레벨 : 데이터 분석
- 애플리케이션 레벨 : 서비스 적용을 통한 빅데이터 활용
46. 외부 데이터의 수집을 위해 우선적으로 고려되어야 하는 비용
- ETL 솔루션 구매 비용
47. 시계열 데이터
- 정형 데이터
48. 반정형 데이터
- HTML, XML, JSON, RSS, 웹로그, 센서 데이터 등
49. 정형 데이터 수집 기술
- API, ETL, FTP
- ODBC
50. 비정형 데이터 수집 기술
- Crawler, HTTP Protocol 수집, Parsing 기법, API
51. 외부데이터
- SNS
- 소셜 데이터
- VOC 접수 등 마케팅 관련 데이터
- 외부 시스템에 원천 데이터 존재
- 웹페이지, 소셜 데이터, 문서 등
52. 내부데이터
- 내부 시스템에 원천 데이터 존재
- 파일 시스템, DBMS, 센서 등
53. 큐브 데이터
- 특정시간 동안 저장된 로그 데이터 정보
54. JSON
- 자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식
55. 데이터 웨어 하우스
- 전사적인 차원에서 대규모로 데이터를 구축하는 저장소
56. 데이터 마트
- 사용자 부서 단위에서 주로 소규모로 구축해 사용하는 자료 저장소
57. EAI(Enterprise Application Integraion)
- 기업 내 또는 기업 간의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하는 기술
58. 웹마이닝
- 인터넷을 이용해 제공되는 웹서비스의 다양한 패턴을 발견하는 것
- 웹을 이용한 마이닝, 웹콘텐츠 마이닝, 웹구조 마이닝 등
- 로그분석을 사용하는 기법
59. 웹콘텐츠 마이닝
- 웹페이지에서 유용한 데이터, 정보, 지식을 마이닝하는 방법
60. 데이터 품질 점검 항목
- 데이터의 분량
- 데이터의 정확성
- 데이터의 일관성
61. MongoDB
- NOSQL 저장 시스템으로 반정형 또는 비정형 데이터 저장하기에 적합
62. Sybase, MS-SQL, Oracle DB
- 정형 데이터 저장하기에 적합
63. 튜플 = 레코드, 튜플의 수 = 카디널리티 수
64. 애트리뷰트 -> 속성, 디그리(차수)
65. 분산파일시스템
- 저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션 지원
- 사용자에게 고성능의 Fault-tolerant 환경 ㅈ공
66. 키-밸류 데이터베이스
- NoSQL 데이터 저장 방식 중 키와 해당 키 값의 쌍으로 저장하는 데이터 모델
67. Sharding 기법
- 데이터 저장 및 관리 시 높은 성능과 가용성 보장
- NoSQL에서 주로 사용되며, 기존 관계형 데이터베이스 시스템에서의 파티셔닝 개념과 동일
- 대용량 데이터베이스에서 데이터를 수평분할 하는 방법
68. MongoDB에서 샤딩 기법 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버
- Config 서버
69. 빅데이터를 저장 및 처리하기 위한 하드웨어 설계 방법
- 분산, 병렬, 클라우드
70. 클라우드
- 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술
71. 하둡
- 빅데이터를 효율적으로 저장하고 신속하게 분석하기 위해 사용되는 SW
- 아파치 재단에서 관리
72. 하둡에서 수집된 데이터를 저장하는 기술
- HDFS
73. 하둡 시스템
- HDFS와 맵리듀스 시스템으로 이루어짐
74. 맵리듀스에서의 데이터 처리 과정
- 맵 -> 셔플 -> 리듀스
75. YARN
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
- 마스터노드/슬레이브 노드 Resource Manager/Node Manager
76. Saas
- 사용자가 인터넷을 통해 서비스 제공자에게 접속하여 애플리케이션을 사용하고 사용한 만큼 비용을 지불
- 서비스가 운용되고 있는 서버에 대해 운영체제, 하드웨어, 네트워크는 제어할 수 없고 오직 소프트웨어만 사용
77. Iaas
- 클라우드 컴퓨팅 서비스에서 고성능 컴퓨팅이 가능한 서버나 대용량 저장장치 제공
78. PaaS
- 사용자가 서비스 제공자로부터 개발할 수 있는 환경을 제공 받고, 개발이 완료된 애플리케이션을 제 3의 사용자에게 제공하는 서비스
79. 오피니언 마이닝
- 신문기사, 뉴스, 인물, 이슈, 이벤트 등과 같은 관련된 원천 데이터에서 특정 주제에 대한 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출
80. 아파치 sqoop
- 테이블과 같이 고정된 Column에 데이터 저장
- 정형 데이터 수집
- 하둡 플랫폼과 연계하여 관계형 DB 통합 분석 가능
- 모든 적재 과정을 자동화하고 병렬처리 방식으로 작업
- 명령어는 인터프리터에 의해 한 번에 하나씩 실행
81. 아파치 Flume
- 안정적이고 신뢰성 있는 분산 서비스 환경 제공
- 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조 가짐
- 네트워크 트래픽, 이메일 메시지 등 대량의 이벤터 데이터 전송 가능
- 주로 로그 및 센서 등의 반정형 데이터 수집용으로 사용
82. Scrapy
- 비정형 데이터의 수집
- 파이썬 기반 프레임워크 활용
83. 아파치 sqoop 데이터 수집 절차
- 테이블 메타 데이터 수집 -> 자바 클래스 생성 -> Map Task 실행 -> 데이터 import
84. scraping
- 크롤러와 달리 하나의 웹문서나 웹사이트에 대한 정보 수집 기술
- 웹문서의 정보를 수집
85 RSS
- XML 기반의 콘텐츠 배급 프로토콜을 이용하여 웹기반의 최신 정보를 공유하고 해당 콘텐츠의 정보를 수집하는 기술
86. Open API
- 실시간 데이터 수집을 이용하여 사용
- 다양한 애플리케이션 개발이 가능하도록 개발자와 사용자에게 공개된 기술
87. 측정
- 관심있는 대상을 데이터 분석목적에 마게 데이터화하는 것
88. 계량적 변수(Quantitative Variable)
- 수치로 측정할 수 있는 데이터를 저장하기 위한 변수
89. 비계량적 변수(Qualitative Variable)
- 수치로 측정할 수 없는 데이터
90. 연속적 변수
- 기업의 생산량, 매출액 등과 같은 연속적인 모든 값을 가지는 데이터를 저장하기 위한 계량 변수
91. 비율 척도
- 계량적 변수를 측정하는 데 주로 사용
- 금액, 거리, 무게, 시간 등
- 사칙연산 가능
92. 등간척도
- 절대 영점이 없는 자료
93. 데이터의 존재론적 특성 구분
- 계량 데이터
- 비계량 데이터
94.빅데이터 저장 시스템 요구사항 분석 절차
- 요구사항 수집->분석->명세->검증
95. 총계
- 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터를 변환하는 과정
96. 변수변환
- 변숫값을 x라고 할 떄, 변숫값을 일괄 적용하여 새로운 변수를 생성하는 기법
97. binning 방법(구간화)
- 데이터 변환 작업을 위해 구간의 너비를 작게 하여 히스토그램을 표현하는 평활 기법
98. 데이터베이스를 설계하기 위해 데이터 표준화 및 모델링 단계에서 데이터로부터 추출되는 두가지 주요 요소
- Entitiy, Attribute
99. 개념적 설계
- ER 다이어그램을 활용하여 엔티티들 사이의 관계를 정의하는 단계
100. 논리적 설계
- ER 다이어그램을 기반으로 매핑 작업을 수행하고 관계형 스키마를 생성하는 설계 과정
101. 데이터 전처리
- 데이터 유형 변환
- 데이터 필터링
- 데이터 정제
102. 데이터 후처리
- 데이터 정규화
- 데이터 평활화
- 중복 데이터 검출
103. 카산드라
- 방대한 데이터를 처리하기 위해 분산 시스템을 이용하며, 오픈소스 DBMS로 페이스북에서 개발되었다
- 아파치 소프트웨어 재단의 프로젝트로 관리
- 자유 오픈소스 분산형 NoSQL사용
104. 정형데이터 일관성
- 데이터의 구조, 값, 표현 형태가 서로 일치
- 참조 무결성 유지
105. 잡음(Noise)
- 대상이 가지고 있는 속성값을 있는 그대로의 숫자 또는 기호에서 벗어나게 하는 원하지 않는 임의의 요소들의 개입될 수 있고 이로인해 대상이 잘못 측정되어 참값에서 벗어나는 경우의 데이터
106. 잡음을 제거하기위한 방법
- 구간화
- 군집화
- 회귀모형
107. Map
- 맵리듀스 분석 도구에서 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 기능
108. Reduce
- 맵리듀스 분석 도구에서 중복 데이터를 제거하고 원하는 데이터 추출하는 작업
109. Presto
- 페이스북에서 개발된 하둡을 위한 SQL 처리 에진
- SQL 언어를 사용하며 데이터를 빠르게 분석
110. Summingbird
- Storm과 하둡을 결합한 스트리밍 맵리듀스 ㅣ스템
- 배치 및 스트리밍 작업을 요구하는 어플리케이션 수행
111. Esper
- 실시간 처리용 인메모리 기술 활용
- 실시간 이벤트 처리를 위한 오픈소스, 자바 기반 소프트웨어
112. AWS의 특징 3S
- Simple
- Storage
- Service
113. 보삽법(Interpolation Method)
- 시계열 데이터에서 누락된 데이터 보완 시 활용
- 심한 변동을 나타내지 않는 변수의 추정 시 활용
- Contextual Information을 고려하여 결측치 보완
114. 모수
- 모집단의 특성을 나타내는 수치 자료
115. 정규성(중심극한정리)
- 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 따른다는 특성
116. 모집단
- 분석하고자 하는 모든 대상이 되는 집단
117. 통계적 추론
- 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정
118. 모수적 방법
- 중심극한정리를 이용한 정규성에 기반한 추론 방법
119. 비모수적 방법
- 정규성 검정 결과 표본들의 평균 분포가 정규분포가 아니고, 표본의 수가 10명 미만으로 소규모인 경우 적용되는 추론 방법
120. 군집 추출
- 모집단을 여러 군집으로 나눈 후, 군집들 중에서 하나의 군집을 선택하여 군집 내에 속한 데이터 전체 추출
121. 탐색적 데이터 분석(EDA)
- 데이터 집합이 실제로 어떤 정보를 포함하고 있는지를 파악하는 데 중점을 두고, 통계 기법, 시각화 등을 통해 데이터 집합의 주요 특징을 얻어내는 방식
122. 탐색적 데이터 분석 절차
- 분석목적 설정 -> 모집단 정의 -> 표본 추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용
123. 분산
- 관찰값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
124. 범위
- 최댓값과 최솟값의 차이
125. 공분산
- 두 확률변수 X, Y 편차의 곱의 합으로 구한다.
- 두 확률변수 X, Y 가 독립이면 공분산은 0이다.
- 공분산은 크기보다 +, -의 부호에 의미가 있는 값
- 크기를 고려하려면 공분산을 각각의 확률변수의 표준편차로 나눈 상관계수를 이용
126. 곡선 회귀모형
- 독립변수가 1개이고 종속변수와의 관계가 2차 함수 이상인 경우 사용되는 회귀분석 모형
127. 최소제곱법
- 표본 데이터를 이용하여 오차를 최소화하는 모수를 추정하는 방법
128. 머신러닝
- 코드로 정의되지 않은 동작 실행 능력
- 컴퓨터가 학습할 수 있는 알고리즘과 기술 개발 분야
- 최초 학습에 들인 시간 및 노력보다 더 빠르고 수월하게 배운 것을 수행
- 정확한 작업 수행을 위한 올바른 모델 구축
129. 혼돈행렬(Confusion Matrix)
- 분류 목적의 머신러닝 모형 성능 평가 시 활용
- 분류 정확도의 평가지표로 사용
- 분류의 예측 범주와 데이터의 실제 분류 범주 구분
- 교차표 형태로 표현
130. 혼돈행렬

1) 정분류율(Accuracy)
Accuracy = TN + TP / TN + TP + FN + FP
2) 오분류율(Error Rate)
1 - Accuracy = FN + FP / TN + TP + FN + FP
3) 특이도(Specificity)
Specificity = TN / TN + FP -> (TNR : True Negative Rate)
4) 민감도(Sensitivity)
Sensitivity = TP / TP + FN -> (TPR : True Positive Rate)
5) 정확도(Precision)
Precision = TP / TP + FP
6) 재현율(Recall) : 민감도와 같음
Recall = TP / TP + FN
7) F1 Score
F1 = 2 * (Precision * Recall) / (Precision + Recall)
131. Lasso
- 규제 방식 L1 규제
- lambda 값으로 패널티 정도 조정
- 자동적으로 변수 선택
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티 부여
132. Ridge
- 규제 방식 L2 규제
- 절대값을 0에 가깝게 하도록 함
133. 시계열 데이터의 분석 절차 순서
- 시간 그래프 그리기
- 추세와 계절성 제거
- 잔차 예측
- 잔차에 대한 모델 적합
- 예측된 잔차에 추세와 계절성을 더하여 미래 예측
134. 시계열을 구성하는 4가지 요소
- 추세(경향)요인
- 계절 요인
- 순환 요인
- 불규칙 요인
135. 시계열분석
- 평균이 일정
- 모든 시점에 대해 일정한 평균을 가짐
- 분산도 시점에 의존하지 않음
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않음
136. 결정계수
- 입력 변수가 증가하면 결정계수도 증가
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소
137. 자유도
- data of freedom
- n-1
138. 비율척도
- 0이 절대적인 의미를 가짐
139. SOM
- 코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법
140. ROC 커브
- x축에는 1-특이도, y축에는 민감도
- 아래 면적이 크면 좋은 성능
141. 프라이밍효과
- 합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상
142. 연속형 확률분포
- 정규분포
- t분포
- f분포
143. 이산형 확률분포
- 이항분포
144. 로지스틱 회귀
- 종속변수가 범주형 데이터일 경우 적용
145. SSR = SST - SSE
146. 피어슨 상관계수
- 등간척도
- 연속형 변수
147. 스피어맨 상관계수
- 서열척도
- 순서형 변수
- 비모수적 방법
148. F분포
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 분포
- 자유도가 커질수록 정규분포에 가까워짐
149. 카이제곱분포
- 두 집단 간의 동질성 검정에 활용
150. t 분포
- 자유도가 커질수록, 표본이 커질수록 정규분포에 가까워짐
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
151. 연관규칙의 척도
1) 지지도(Support)
- A and B / 전체
2) 신뢰도(Confidence)
- A and B / P(A)
3) 향상도(Lift)
- 신뢰도 / P(B)
- A and B / P(A) P(B)
152. 랜덤포레스트
- 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기를 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 입력 변수가 많으면 높은 정확도를 보임
153. 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형 만드는 방법
154. 지니지수
- 지니지수의 값이 클수록 순수도가 낮음
155. 엔트로피 지수
- 엔트로피 지수 값이 클수록 순수도 낮음
156. CART
- 목적변수가 범주형일 경우 지니지수 이용
157. 파생변수
- 자료 변환을 위해 사용되는 방법
- 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수
158. 다차원척도법
- 다차원 관찰값 또는 개체들 간의 거리, 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적
159. 데이터 분석 모형의 오류 분류
- 학습 오류, 훈련 오류
160. 홀드아웃 교차검증
- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분 후, 훈련집합을 이용하여 분석 모형을 구축하고 시험집합으로 모형의 성능을 평가하는 방법
161. 시뮬레이션
- 미래의 불확실한 상황을 확률적으로 모델링하여 예측하는 기법
162. 과대적합
- 사용된 예측 모형 함수가 학습 데이터세트 상의 모든 데이터를 오차가 없이 추정하는 예로 제한된 학습 데이터세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상
163. 과대적합
- 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 것은 불가
- 상대적으로 우수한 모형을 구분하여 사용해 성능을 올린다
- 예측오차와 교차 유효성 검사방법을 이용해 과대적합 방지
164. 독립변수
- 가설적 변수
- 원인적 변수
165. 교차 타당성을 검증하기 위한 교차분석에서 사용되는 검정통계량
- 카이제곱 검정 통계량
166. 메타 데이터
- 데이터에 대한 데이터
- 어떤 목적을 가지고 만들어진 데이터
167. t-검정
- 두 집단 사이 평균의 차이를 검정하는 방법
168. 독립성 검정
- 교차 타당성을 검증하기 위해 두 변수 간에 관련성이 있는지를 알아보기 위해 사용되는 검정 방법
169. 스피어만 상관계수
- 변수들의 순위를 고려하여 평가하는 상관계수
170. 정규성
- 회귀분석 모형 적용 시 잔차는 평균이 0이고 분산이 시그마^2인 정규분포
171. 등분산성
- 회귀분석 모형 적용 시 잔차들은 같은 분산을 가지는 조건
172. 분산분석
- 두 개 이상의 집단들 사이의 비교를 수행하고자 할 떄 사용하며, 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산비교로 얻은 F 분포를 이용하여 가설을 검정
173. ANOVA
- 3개 이상의 집단에 대해 평균값을 검정하는 모수적 통계 분석 기법
- F-Test를 이용한 분산분석 방법
174. 점추정
- 모수를 단일치로 추측
- 표본을 이용하여 모수의 참값으로 생각되는 하나의 값 추측
175.
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 후기(필기) (5) | 2021.04.17 |
---|---|
빅데이터분석기사 필기 기출 문제(제2회) (2) | 2021.04.17 |
빅데이터분석기사 자격검정 취소 (1) | 2020.12.15 |
빅데이터분석기사 필기 오답 - (2) (0) | 2020.12.14 |
빅데이터분석기사 필기 오답 - (1) (1) | 2020.12.14 |
빅데이터분석기사 필기 4과목 요약 - 빅데이터 결과 해석 ① (1) | 2020.12.11 |
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ② (1) | 2020.12.10 |
빅데이터분석기사 필기 3과목 요약 - 빅데이터 모델링 ① (0) | 2020.12.03 |
최근댓글