반응형

1. 향상도

- 향상도가 1을 넘으면 서로 양의 상관관계

- 향상도가 1보다 작으면 서로 음의 상관관계

- 향상도가 1이면 서로 독립전인 관계

 

2. Apriori 알고리즘

- 연관성 분석 모형의 알고리즘

 

3. 빅데이터 분석 모형을 검증하는 대표적인 방법

- Holdout Cross Validation

- K-fold Cross Validation

 

4. 평균 제곱근 오차(RMSE, Root Mean Squared Error)

- 평균제곱오차(MSE)의 제곱근값

 

5. 빅데이터 분석 모형의 개발 및 운영 절차

- 분석목적 정의 -> 가설검토 -> 데이터 준비 및 처리 -> 모델링 및 분석 -> 성능평가 -> 운영

 

6. 상관분석

- 명목적 데이터 변수들 사이의 연관성 분석에 활용

- 두 집단 간의 평균 차이를 검정하는 경우 T검정 사용

- 범주형 변수 간의 차이를 검정하는 경우 카이제곱 검정 사용

- 변수들로 구성된 분류표 상의 발생빈도 이용

 

7. 분산분석

- 분산분석(ANOVA)은 두 개 이상의 집단 간 비교를 수행하고자 할 떄 집단 내의 분산 비교로 얻은 F 분포를 이용하여 가설검정 수행하는 방법

- F 검정 통계량 값으로 해석

 

8. 통계적 오류

- 제 1종 오류 : 귀무가설이 참인데 귀무가설을 기각할 경우

- 제 2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 경우

 

9. 적합도 검정에는 카이제곱분포 사용

 

10. 데이터 시각화의 주요 기능

- 설명

- 탐색

- 표현

 

11. 비교시각화

- 막대그래프와 히트맵, 버블 차트, 선그래프 이용

 

12. 빅데이터 시각화 3단계 프로세스

- 구조화

- 시각화

- 시각표현

 

13. Pixel-oriented 기술

- 각각의 데이터를 색상의 종류, 색의 크기, 투명도 등을 활용하여 데이터의 서로 다른 속성을 표현

 

14. 데이터 변수 형식

- 단변수 : 바 그래프, 파이 그래프등으로 표시

- 이변수 : 산점도(Scatter Plot) 표현

- 삼변수 : 산점도 매트릭스로 표현

- 다변수 : 평형좌표 플롯, 스타 플롯, 산점도 매트릭스 등으로 표현

 

15. 빅데이터 분석 프로세스 처리 과정

- 데이터 수집->데이터정제->분석모형구축->예측 및 모형업데이트->시각화

 

16. 비즈니스 인텔리전스

- 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법 의미

- 각 조직의 구성원에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계

 

17. 분석결과 보고서의 요약본 작성 과정

- 보고서 이해 -> 스토리보드 작성 -> 요약본 작성 -> 검토 및 수정

 

18. 빅데이터 분석결과를 평가하고 피드백하여 현장에 적용 및 검증하는 과정

-> 데이터 수집 -> 저장 -> 처리 -> 분석결과 평가-> 피드백 -> 현장 적용 및 검증

 

19. ERP(전사적지원관리)

- ERP는 정형 데이터에 속함

 

20. 데이터 크기

- Bit -> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB

 

21. ETL

- 데이터 공유를 위한 기법으로 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능을 주로 담당

 

22. 정보의 주요 특징

- 정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보

- 적시성 : 필요할 떄 이용 가능한 데이터

- 충분성 : 

- 관련성 : 상황 및 주제와 관련된 데이터

- 규모의 적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨

- 비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함

 

23. 데이터 확보 계획의 수립 절차

- 분석목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 데이터 확보 계획 수립

 

24. 데이터 분석 프로젝트 수행 과정

- 분석과제 정의 -> 준비 및 탐색 -> 모델링 검증 -> 산출물 정리

 

25. 빅데이터 분석 프로세스

- 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용

 

26. 데이터 마이닝

- 다양한 기법을 활용하여 대규모로 저장된 데이터 안에서 체계적인 통계적 규칙이나 패턴, 새로운 지식을 찾아낸다.

 

27. 데이터마이닝 기법

- Decision Tree

- K-means Clustering

- Text Mining

 

28. 모형화

- 주어진 문제의 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화하는 과정

 

29. 빅데이터 분석목표정의서

- 데이터 분석의 기본 정보

- 성과측정 방법

- 데이터 관련 정보

- 분석 타당성 검토의견 등

 

30. 빅데이터 분석에 대한 기획 의도

- 빅데이터 요건 정의서

 

31. 비즈니스 모델

- 기업이 수익을 얻기 위한 일련의 활동

- 수익모델

 

32. 빅데이터 비즈니스 모델의 적합성을 판별하는 기준

- 수익성

 

33. 정보

- 개인이나 조직이 의사결정을 할 떄 사용할 수 있도록 의미 있고 유용한 형태로 가공, 처리된 데이터

- 지식으로서 불확실성을 인식하거나 평가하고 이를 줄이기 위해 사용

 

34. 데이터

- 정보시스템에 저장된 외부의 원천 데이터

 

35. 데이터마이닝

- 분류

- 클러스토링

- 연관성

- 연속성 및 예측 기법

 

36. 데이터베이스의 네가지 주요 특징

- ACID 원자성, 일관성, 고립성, 지속성

- Atomicity, consistency, isolation durability

 

37. 분석목표 수립 단계에서 빅데이터 분석목표 정의서 작성

 

38. 빅데이터 요건 정의서는 도메인 이슈 도출 단계에서 작성

 

39. 크론바하 알파값

- 실문문항 답변에 대한 신뢰도 평가

 

40. 프로젝트 계획 수립 단계에서 작업분할구조도(WBS) 작성

 

41. 빅데이터 분석 로드맵 수행 과정

- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분

 

42. 빅데이터 분석 프로젝트 소요비용

- 인건비

- 하드웨어 및 소프트웨어 비용

- 기타 성과측정비, 추가 인건비 및 자문료

 

43. 빅데이터 산업 구조의 구성 요소

- 인프라 : 하드웨어, 소프트웨어를 의미

- 서비스 : 교육, 컨설팅 등의 서비스

 

44. 비즈니스 프로세스

- 다양한 시스템과 비즈니스 요소들에 넓게 분산되어 있고 커스터마이즈 되어 있는 복잡하고 역동적인 실체

- 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합

 

45. 빅데이터 서비스 모델

- 하드웨어 레벨 : 빅데이터 저장

- 소프트웨어 레벨 : 데이터 분석

- 애플리케이션 레벨 : 서비스 적용을 통한 빅데이터 활용

 

46. 외부 데이터의 수집을 위해 우선적으로 고려되어야 하는 비용

- ETL 솔루션 구매 비용

 

47. 시계열 데이터

- 정형 데이터

 

48. 반정형 데이터

- HTML, XML, JSON, RSS, 웹로그, 센서 데이터 등

 

49. 정형 데이터 수집 기술

- API, ETL, FTP

- ODBC

 

50. 비정형 데이터 수집 기술

- Crawler, HTTP Protocol 수집, Parsing 기법, API

 

51. 외부데이터

- SNS

- 소셜 데이터

- VOC 접수 등 마케팅 관련 데이터

- 외부 시스템에 원천 데이터 존재

- 웹페이지, 소셜 데이터, 문서 등

 

52. 내부데이터

- 내부 시스템에 원천 데이터 존재

- 파일 시스템, DBMS, 센서 등

 

53. 큐브 데이터

- 특정시간 동안 저장된 로그 데이터 정보

 

54. JSON

- 자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식

 

55. 데이터 웨어 하우스

- 전사적인 차원에서 대규모로 데이터를 구축하는 저장소

 

56. 데이터 마트

- 사용자 부서 단위에서 주로 소규모로 구축해 사용하는 자료 저장소

 

57. EAI(Enterprise Application Integraion)

- 기업 내 또는 기업 간의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하는 기술

 

58. 웹마이닝

- 인터넷을 이용해 제공되는 웹서비스의 다양한 패턴을 발견하는 것

- 웹을 이용한 마이닝, 웹콘텐츠 마이닝, 웹구조 마이닝 등

- 로그분석을 사용하는 기법

 

59. 웹콘텐츠 마이닝

- 웹페이지에서 유용한 데이터, 정보, 지식을 마이닝하는 방법

 

60. 데이터 품질 점검 항목

- 데이터의 분량

- 데이터의 정확성

- 데이터의 일관성

 

61. MongoDB

- NOSQL 저장 시스템으로 반정형 또는 비정형 데이터 저장하기에 적합

 

62. Sybase, MS-SQL, Oracle DB

- 정형 데이터 저장하기에 적합

 

63. 튜플 = 레코드, 튜플의 수 = 카디널리티 수

 

64. 애트리뷰트 -> 속성, 디그리(차수)

 

65. 분산파일시스템

- 저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션 지원

- 사용자에게 고성능의 Fault-tolerant 환경 ㅈ공

 

66. 키-밸류 데이터베이스

- NoSQL 데이터 저장 방식 중 키와 해당 키 값의 쌍으로 저장하는 데이터 모델

 

67. Sharding 기법

- 데이터 저장 및 관리 시 높은 성능과 가용성 보장

- NoSQL에서 주로 사용되며, 기존 관계형 데이터베이스 시스템에서의 파티셔닝 개념과 동일

- 대용량 데이터베이스에서 데이터를 수평분할 하는 방법

 

68. MongoDB에서 샤딩 기법 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버

- Config 서버

 

69. 빅데이터를 저장 및 처리하기 위한 하드웨어 설계 방법

- 분산, 병렬, 클라우드

 

70. 클라우드

- 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술

 

71. 하둡

- 빅데이터를 효율적으로 저장하고 신속하게 분석하기 위해 사용되는 SW

- 아파치 재단에서 관리

 

72. 하둡에서 수집된 데이터를 저장하는 기술

- HDFS

 

73. 하둡 시스템

- HDFS와 맵리듀스 시스템으로 이루어짐

 

74. 맵리듀스에서의 데이터 처리 과정

- 맵 -> 셔플 -> 리듀스

 

75. YARN

- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼

- 마스터노드/슬레이브 노드 Resource Manager/Node Manager

 

76. Saas

- 사용자가 인터넷을 통해 서비스 제공자에게 접속하여 애플리케이션을 사용하고 사용한 만큼 비용을 지불

- 서비스가 운용되고 있는 서버에 대해 운영체제, 하드웨어, 네트워크는 제어할 수 없고 오직 소프트웨어만 사용

 

77. Iaas

- 클라우드 컴퓨팅 서비스에서 고성능 컴퓨팅이 가능한 서버나 대용량 저장장치 제공

 

78. PaaS

- 사용자가 서비스 제공자로부터 개발할 수 있는 환경을 제공 받고, 개발이 완료된 애플리케이션을 제 3의 사용자에게 제공하는 서비스

 

79. 오피니언 마이닝

- 신문기사, 뉴스, 인물, 이슈, 이벤트 등과 같은 관련된 원천 데이터에서 특정 주제에 대한 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출

 

80. 아파치 sqoop

- 테이블과 같이 고정된 Column에 데이터 저장

- 정형 데이터 수집

- 하둡 플랫폼과 연계하여 관계형 DB 통합 분석 가능

- 모든 적재 과정을 자동화하고 병렬처리 방식으로 작업

- 명령어는 인터프리터에 의해 한 번에 하나씩 실행

 

81. 아파치 Flume

- 안정적이고 신뢰성 있는 분산 서비스 환경 제공

- 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조 가짐

- 네트워크 트래픽, 이메일 메시지 등 대량의 이벤터 데이터 전송 가능

- 주로 로그 및 센서 등의 반정형 데이터 수집용으로 사용

 

82. Scrapy

- 비정형 데이터의 수집

- 파이썬 기반 프레임워크 활용

 

83. 아파치 sqoop 데이터 수집 절차

- 테이블 메타 데이터 수집 -> 자바 클래스 생성 -> Map Task 실행 -> 데이터 import

 

84. scraping

- 크롤러와 달리 하나의 웹문서나 웹사이트에 대한 정보 수집 기술

- 웹문서의 정보를 수집

 

85 RSS

- XML 기반의 콘텐츠 배급 프로토콜을 이용하여 웹기반의 최신 정보를 공유하고 해당 콘텐츠의 정보를 수집하는 기술

 

86. Open API

- 실시간 데이터 수집을 이용하여 사용

- 다양한 애플리케이션 개발이 가능하도록 개발자와 사용자에게 공개된 기술

 

87. 측정

- 관심있는 대상을 데이터 분석목적에 마게 데이터화하는 것

 

88. 계량적 변수(Quantitative Variable)

- 수치로 측정할 수 있는 데이터를 저장하기 위한 변수

 

89. 비계량적 변수(Qualitative Variable)

- 수치로 측정할 수 없는 데이터

 

90. 연속적 변수

- 기업의 생산량, 매출액 등과 같은 연속적인 모든 값을 가지는 데이터를 저장하기 위한 계량 변수

 

91. 비율 척도

- 계량적 변수를 측정하는 데 주로 사용

- 금액, 거리, 무게, 시간 등

- 사칙연산 가능

 

92. 등간척도

- 절대 영점이 없는 자료

 

93. 데이터의 존재론적 특성 구분

- 계량 데이터

- 비계량 데이터

 

94.빅데이터 저장 시스템 요구사항 분석 절차

- 요구사항 수집->분석->명세->검증

 

95. 총계

- 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터를 변환하는 과정

 

96. 변수변환

- 변숫값을 x라고 할 떄, 변숫값을 일괄 적용하여 새로운 변수를 생성하는 기법

 

97. binning 방법(구간화)

- 데이터 변환 작업을 위해 구간의 너비를 작게 하여 히스토그램을 표현하는 평활 기법

 

98. 데이터베이스를 설계하기 위해 데이터 표준화 및 모델링 단계에서 데이터로부터 추출되는 두가지 주요 요소

- Entitiy, Attribute

 

99. 개념적 설계

- ER 다이어그램을 활용하여 엔티티들 사이의 관계를 정의하는 단계

 

100. 논리적 설계

- ER 다이어그램을 기반으로 매핑 작업을 수행하고 관계형 스키마를 생성하는 설계 과정

 

101. 데이터 전처리

- 데이터 유형 변환

- 데이터 필터링

- 데이터 정제

 

102. 데이터 후처리

- 데이터 정규화

- 데이터 평활화

- 중복 데이터 검출

 

103. 카산드라

- 방대한 데이터를 처리하기 위해 분산 시스템을 이용하며, 오픈소스 DBMS로 페이스북에서 개발되었다

- 아파치 소프트웨어 재단의 프로젝트로 관리

- 자유 오픈소스 분산형 NoSQL사용 

 

104. 정형데이터 일관성

- 데이터의 구조, 값, 표현 형태가 서로 일치

- 참조 무결성 유지

 

105. 잡음(Noise)

- 대상이 가지고 있는 속성값을 있는 그대로의 숫자 또는 기호에서 벗어나게 하는 원하지 않는 임의의 요소들의 개입될 수 있고 이로인해 대상이 잘못 측정되어 참값에서 벗어나는 경우의 데이터

 

106. 잡음을 제거하기위한 방법

- 구간화

- 군집화

- 회귀모형

 

107. Map

- 맵리듀스 분석 도구에서 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 기능

 

108. Reduce

- 맵리듀스 분석 도구에서 중복 데이터를 제거하고 원하는 데이터 추출하는 작업

 

109. Presto

- 페이스북에서 개발된 하둡을 위한 SQL 처리 에진

- SQL 언어를 사용하며 데이터를 빠르게 분석

 

110. Summingbird

- Storm과 하둡을 결합한 스트리밍 맵리듀스 ㅣ스템

- 배치 및 스트리밍 작업을 요구하는 어플리케이션 수행

 

111. Esper

- 실시간 처리용 인메모리 기술 활용

- 실시간 이벤트 처리를 위한 오픈소스, 자바 기반 소프트웨어

 

112. AWS의 특징 3S

- Simple

- Storage

- Service

 

113. 보삽법(Interpolation Method)

- 시계열 데이터에서 누락된 데이터 보완 시 활용

- 심한 변동을 나타내지 않는 변수의 추정 시 활용

- Contextual Information을 고려하여 결측치 보완

 

114. 모수

- 모집단의 특성을 나타내는 수치 자료

 

115. 정규성(중심극한정리)

- 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 따른다는 특성

 

116. 모집단

- 분석하고자 하는 모든 대상이 되는 집단

 

117. 통계적 추론

- 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정

 

118. 모수적 방법

- 중심극한정리를 이용한 정규성에 기반한 추론 방법

 

119. 비모수적 방법

- 정규성 검정 결과 표본들의 평균 분포가 정규분포가 아니고, 표본의 수가 10명 미만으로 소규모인 경우 적용되는 추론 방법

 

120. 군집 추출

 - 모집단을 여러 군집으로 나눈 후, 군집들 중에서 하나의 군집을 선택하여 군집 내에 속한 데이터 전체 추출

 

121. 탐색적 데이터 분석(EDA)

- 데이터 집합이 실제로 어떤 정보를 포함하고 있는지를 파악하는 데 중점을 두고, 통계 기법, 시각화 등을 통해 데이터 집합의 주요 특징을 얻어내는 방식

 

122. 탐색적 데이터 분석 절차

- 분석목적 설정 -> 모집단 정의 -> 표본 추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용

 

123. 분산

- 관찰값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값

 

124. 범위

- 최댓값과 최솟값의 차이

 

125. 공분산

- 두 확률변수 X, Y 편차의 곱의 합으로 구한다.

- 두 확률변수 X, Y 가 독립이면 공분산은 0이다.

- 공분산은 크기보다 +, -의 부호에 의미가 있는 값

- 크기를 고려하려면 공분산을 각각의 확률변수의 표준편차로 나눈 상관계수를 이용

 

126. 곡선 회귀모형

- 독립변수가 1개이고 종속변수와의 관계가 2차 함수 이상인 경우 사용되는 회귀분석 모형

 

127. 최소제곱법

- 표본 데이터를 이용하여 오차를 최소화하는 모수를 추정하는 방법

 

128. 머신러닝

- 코드로 정의되지 않은 동작 실행 능력

- 컴퓨터가 학습할 수 있는 알고리즘과 기술 개발 분야

- 최초 학습에 들인 시간 및 노력보다 더 빠르고 수월하게 배운 것을 수행

- 정확한 작업 수행을 위한 올바른 모델 구축

 

129. 혼돈행렬(Confusion Matrix)

- 분류 목적의 머신러닝 모형 성능 평가 시 활용

- 분류 정확도의 평가지표로 사용

- 분류의 예측 범주와 데이터의 실제 분류 범주 구분

- 교차표 형태로 표현

 

130. 혼돈행렬

1) 정분류율(Accuracy)

Accuracy = TN + TP / TN + TP + FN + FP

 

2) 오분류율(Error Rate)

1 - Accuracy = FN + FP / TN + TP + FN + FP

 

3) 특이도(Specificity)

Specificity = TN / TN + FP -> (TNR : True Negative Rate)

 

4) 민감도(Sensitivity)

Sensitivity = TP / TP + FN  -> (TPR : True Positive Rate)

 

5) 정확도(Precision)

Precision = TP / TP + FP

 

6) 재현율(Recall) : 민감도와 같음

Recall = TP / TP + FN

 

7) F1 Score

F1 = 2 * (Precision * Recall) / (Precision + Recall)

 

131. Lasso

- 규제 방식 L1 규제

- lambda 값으로 패널티 정도 조정

- 자동적으로 변수 선택

- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티 부여

 

132. Ridge

- 규제 방식 L2 규제

- 절대값을 0에 가깝게 하도록 함

 

133. 시계열 데이터의 분석 절차 순서

- 시간 그래프 그리기

- 추세와 계절성 제거

- 잔차 예측

- 잔차에 대한 모델 적합

- 예측된 잔차에 추세와 계절성을 더하여 미래 예측

 

134. 시계열을 구성하는 4가지 요소

- 추세(경향)요인

- 계절 요인

- 순환 요인

- 불규칙 요인

 

135. 시계열분석

- 평균이 일정

- 모든 시점에 대해 일정한 평균을 가짐

- 분산도 시점에 의존하지 않음

- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않음

 

136. 결정계수

- 입력 변수가 증가하면 결정계수도 증가

- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소

 

137. 자유도

- data of freedom

- n-1

 

138. 비율척도

- 0이 절대적인 의미를 가짐

 

139. SOM

- 코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법

 

140. ROC 커브

- x축에는 1-특이도, y축에는 민감도

- 아래 면적이 크면 좋은 성능

 

141. 프라이밍효과

- 합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상

 

142. 연속형 확률분포

- 정규분포

- t분포

- f분포

 

143. 이산형 확률분포

- 이항분포

 

144. 로지스틱 회귀

- 종속변수가 범주형 데이터일 경우 적용

 

145. SSR = SST - SSE

 

146. 피어슨 상관계수

- 등간척도

- 연속형 변수

 

147. 스피어맨 상관계수

- 서열척도

- 순서형 변수

- 비모수적 방법

 

148. F분포

- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 분포

- 자유도가 커질수록 정규분포에 가까워짐

 

149. 카이제곱분포

- 두 집단 간의 동질성 검정에 활용

 

150. t 분포

- 자유도가 커질수록, 표본이 커질수록 정규분포에 가까워짐

- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용

 

151. 연관규칙의 척도

1) 지지도(Support)

- A and B / 전체

2) 신뢰도(Confidence)

- A and B / P(A)

3) 향상도(Lift)

- 신뢰도 / P(B)

- A and B / P(A) P(B)

 

152. 랜덤포레스트

- 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기를 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

- 입력 변수가 많으면 높은 정확도를 보임

 

153. 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측모형 만드는 방법

 

154. 지니지수

- 지니지수의 값이 클수록 순수도가 낮음

 

155. 엔트로피 지수

- 엔트로피 지수 값이 클수록 순수도 낮음

 

156. CART

- 목적변수가 범주형일 경우 지니지수 이용

 

157. 파생변수

- 자료 변환을 위해 사용되는 방법

- 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수

 

158. 다차원척도법

- 다차원 관찰값 또는 개체들 간의 거리, 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적

 

159. 데이터 분석 모형의 오류 분류

- 학습 오류, 훈련 오류

 

160. 홀드아웃 교차검증

- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분 후, 훈련집합을 이용하여 분석 모형을 구축하고 시험집합으로 모형의 성능을 평가하는 방법

 

161. 시뮬레이션

- 미래의 불확실한 상황을 확률적으로 모델링하여 예측하는 기법

 

162. 과대적합

- 사용된 예측 모형 함수가 학습 데이터세트 상의 모든 데이터를 오차가 없이 추정하는 예로 제한된 학습 데이터세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상

 

163. 과대적합

- 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 것은 불가

- 상대적으로 우수한 모형을 구분하여 사용해 성능을 올린다

- 예측오차와 교차 유효성 검사방법을 이용해 과대적합 방지

 

164. 독립변수

- 가설적 변수

- 원인적 변수

 

165. 교차 타당성을 검증하기 위한 교차분석에서 사용되는 검정통계량

- 카이제곱 검정 통계량

 

166. 메타 데이터

- 데이터에 대한 데이터

- 어떤 목적을 가지고 만들어진 데이터

 

167. t-검정

- 두 집단 사이 평균의 차이를 검정하는 방법

 

168. 독립성 검정

- 교차 타당성을 검증하기 위해 두 변수 간에 관련성이 있는지를 알아보기 위해 사용되는 검정 방법

 

169. 스피어만 상관계수

- 변수들의 순위를 고려하여 평가하는 상관계수1. 향상도

 

- 향상도가 1을 넘으면 서로 양의 상관관계

 

- 향상도가 1보다 작으면 서로 음의 상관관계

 

- 향상도가 1이면 서로 독립전인 관계

 

 

 

2. Apriori 알고리즘

 

- 연관성 분석 모형의 알고리즘

 

 

 

3. 빅데이터 분석 모형을 검증하는 대표적인 방법

 

- Holdout Cross Validation

 

- K-fold Cross Validation

 

 

 

4. 평균 제곱근 오차(RMSE, Root Mean Squared Error)

 

- 평균제곱오차(MSE)의 제곱근값

 

 

 

5. 빅데이터 분석 모형의 개발 및 운영 절차

 

- 분석목적 정의 -> 가설검토 -> 데이터 준비 및 처리 -> 모델링 및 분석 -> 성능평가 -> 운영

 

 

 

6. 상관분석

 

- 명목적 데이터 변수들 사이의 연관성 분석에 활용

 

- 두 집단 간의 평균 차이를 검정하는 경우 T검정 사용

 

- 범주형 변수 간의 차이를 검정하는 경우 카이제곱 검정 사용

 

- 변수들로 구성된 분류표 상의 발생빈도 이용

 

 

 

7. 분산분석

 

- 분산분석(ANOVA)은 두 개 이상의 집단 간 비교를 수행하고자 할 떄 집단 내의 분산 비교로 얻은 F 분포를 이용하여 가설검정 수행하는 방법

 

- F 검정 통계량 값으로 해석

 

 

 

8. 통계적 오류

 

- 제 1종 오류 : 귀무가설이 참인데 귀무가설을 기각할 경우

 

- 제 2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 경우

 

 

 

9. 적합도 검정에는 카이제곱분포 사용

 

 

 

10. 데이터 시각화의 주요 기능

 

- 설명

 

- 탐색

 

- 표현

 

 

 

11. 비교시각화

 

- 막대그래프와 히트맵, 버블 차트, 선그래프 이용

 

 

 

12. 빅데이터 시각화 3단계 프로세스

 

- 구조화

 

- 시각화

 

- 시각표현

 

 

 

13. Pixel-oriented 기술

 

- 각각의 데이터를 색상의 종류, 색의 크기, 투명도 등을 활용하여 데이터의 서로 다른 속성을 표현

 

 

 

14. 데이터 변수 형식

 

- 단변수 : 바 그래프, 파이 그래프등으로 표시

 

- 이변수 : 산점도(Scatter Plot) 표현

 

- 삼변수 : 산점도 매트릭스로 표현

 

- 다변수 : 평형좌표 플롯, 스타 플롯, 산점도 매트릭스 등으로 표현

 

 

 

15. 빅데이터 분석 프로세스 처리 과정

 

- 데이터 수집->데이터정제->분석모형구축->예측 및 모형업데이트->시각화

 

 

 

16. 비즈니스 인텔리전스

 

- 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법 의미

 

- 각 조직의 구성원에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계

 

 

 

17. 분석결과 보고서의 요약본 작성 과정

 

- 보고서 이해 -> 스토리보드 작성 -> 요약본 작성 -> 검토 및 수정

 

 

 

18. 빅데이터 분석결과를 평가하고 피드백하여 현장에 적용 및 검증하는 과정

 

-> 데이터 수집 -> 저장 -> 처리 -> 분석결과 평가-> 피드백 -> 현장 적용 및 검증

 

 

 

19. ERP(전사적지원관리)

 

- ERP는 정형 데이터에 속함

 

 

 

20. 데이터 크기

 

- Bit -> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB

 

 

 

21. ETL

 

- 데이터 공유를 위한 기법으로 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능을 주로 담당

 

 

 

22. 정보의 주요 특징

 

- 정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보

 

- 적시성 : 필요할 떄 이용 가능한 데이터

 

- 충분성 : 

 

- 관련성 : 상황 및 주제와 관련된 데이터

 

- 규모의 적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨

 

- 비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함

 

 

 

23. 데이터 확보 계획의 수립 절차

 

- 분석목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 데이터 확보 계획 수립

 

 

 

24. 데이터 분석 프로젝트 수행 과정

 

- 분석과제 정의 -> 준비 및 탐색 -> 모델링 검증 -> 산출물 정리

 

 

 

25. 빅데이터 분석 프로세스

 

- 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용

 

 

 

26. 데이터 마이닝

 

- 다양한 기법을 활용하여 대규모로 저장된 데이터 안에서 체계적인 통계적 규칙이나 패턴, 새로운 지식을 찾아낸다.

 

 

 

27. 데이터마이닝 기법

 

- Decision Tree

 

- K-means Clustering

 

- Text Mining

 

 

 

28. 모형화

 

- 주어진 문제의 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화하는 과정

 

 

 

29. 빅데이터 분석목표정의서

 

- 데이터 분석의 기본 정보

 

- 성과측정 방법

 

- 데이터 관련 정보

 

- 분석 타당성 검토의견 등

 

 

 

30. 빅데이터 분석에 대한 기획 의도

 

- 빅데이터 요건 정의서

 

 

 

31. 비즈니스 모델

 

- 기업이 수익을 얻기 위한 일련의 활동

 

- 수익모델

 

 

 

32. 빅데이터 비즈니스 모델의 적합성을 판별하는 기준

 

- 수익성

 

 

 

33. 정보

 

- 개인이나 조직이 의사결정을 할 떄 사용할 수 있도록 의미 있고 유용한 형태로 가공, 처리된 데이터

 

- 지식으로서 불확실성을 인식하거나 평가하고 이를 줄이기 위해 사용

 

 

 

34. 데이터

 

- 정보시스템에 저장된 외부의 원천 데이터

 

 

 

35. 데이터마이닝

 

- 분류

 

- 클러스토링

 

- 연관성

 

- 연속성 및 예측 기법

 

 

 

36. 데이터베이스의 네가지 주요 특징

 

- ACID 원자성, 일관성, 고립성, 지속성

 

- Atomicity, consistency, isolation durability

 

 

 

37. 분석목표 수립 단계에서 빅데이터 분석목표 정의서 작성

 

 

 

38. 빅데이터 요건 정의서는 도메인 이슈 도출 단계에서 작성

 

 

 

39. 크론바하 알파값

 

- 실문문항 답변에 대한 신뢰도 평가

 

 

 

40. 프로젝트 계획 수립 단계에서 작업분할구조도(WBS) 작성

 

 

 

41. 빅데이터 분석 로드맵 수행 과정

 

- 프로젝트 소요 비용 배분 -> 프로젝트 WBS 수립 -> 프로젝트 업무 분장 계획 및 배분

 

 

 

42. 빅데이터 분석 프로젝트 소요비용

 

- 인건비

 

- 하드웨어 및 소프트웨어 비용

 

- 기타 성과측정비, 추가 인건비 및 자문료

 

 

 

43. 빅데이터 산업 구조의 구성 요소

 

- 인프라 : 하드웨어, 소프트웨어를 의미

 

- 서비스 : 교육, 컨설팅 등의 서비스

 

 

 

44. 비즈니스 프로세스

 

- 다양한 시스템과 비즈니스 요소들에 넓게 분산되어 있고 커스터마이즈 되어 있는 복잡하고 역동적인 실체

 

- 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합

 

 

 

45. 빅데이터 서비스 모델

 

- 하드웨어 레벨 : 빅데이터 저장

 

- 소프트웨어 레벨 : 데이터 분석

 

- 애플리케이션 레벨 : 서비스 적용을 통한 빅데이터 활용

 

 

 

46. 외부 데이터의 수집을 위해 우선적으로 고려되어야 하는 비용

 

- ETL 솔루션 구매 비용

 

 

 

47. 시계열 데이터

 

- 정형 데이터

 

 

 

48. 반정형 데이터

 

- HTML, XML, JSON, RSS, 웹로그, 센서 데이터 등

 

 

 

49. 정형 데이터 수집 기술

 

- API, ETL, FTP

 

- ODBC

 

 

 

50. 비정형 데이터 수집 기술

 

- Crawler, HTTP Protocol 수집, Parsing 기법, API

 

 

 

51. 외부데이터

 

- SNS

 

- 소셜 데이터

 

- VOC 접수 등 마케팅 관련 데이터

 

- 외부 시스템에 원천 데이터 존재

 

- 웹페이지, 소셜 데이터, 문서 등

 

 

 

52. 내부데이터

 

- 내부 시스템에 원천 데이터 존재

 

- 파일 시스템, DBMS, 센서 등

 

 

 

53. 큐브 데이터

 

- 특정시간 동안 저장된 로그 데이터 정보

 

 

 

54. JSON

 

- 자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식

 

 

 

55. 데이터 웨어 하우스

 

- 전사적인 차원에서 대규모로 데이터를 구축하는 저장소

 

 

 

56. 데이터 마트

 

- 사용자 부서 단위에서 주로 소규모로 구축해 사용하는 자료 저장소

 

 

 

57. EAI(Enterprise Application Integraion)

 

- 기업 내 또는 기업 간의 이질적인 시스템을 효율적으로 연계하여 메시지를 통합 처리하는 기술

 

 

 

58. 웹마이닝

 

- 인터넷을 이용해 제공되는 웹서비스의 다양한 패턴을 발견하는 것

 

- 웹을 이용한 마이닝, 웹콘텐츠 마이닝, 웹구조 마이닝 등

 

- 로그분석을 사용하는 기법

 

 

 

59. 웹콘텐츠 마이닝

 

- 웹페이지에서 유용한 데이터, 정보, 지식을 마이닝하는 방법

 

 

 

60. 데이터 품질 점검 항목

 

- 데이터의 분량

 

- 데이터의 정확성

 

- 데이터의 일관성

 

 

 

61. MongoDB

 

- NOSQL 저장 시스템으로 반정형 또는 비정형 데이터 저장하기에 적합

 

 

 

62. Sybase, MS-SQL, Oracle DB

 

- 정형 데이터 저장하기에 적합

 

 

 

63. 튜플 = 레코드, 튜플의 수 = 카디널리티 수

 

 

 

64. 애트리뷰트 -> 속성, 디그리(차수)

 

 

 

65. 분산파일시스템

 

- 저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션 지원

 

- 사용자에게 고성능의 Fault-tolerant 환경 ㅈ공

 

 

 

66. 키-밸류 데이터베이스

 

- NoSQL 데이터 저장 방식 중 키와 해당 키 값의 쌍으로 저장하는 데이터 모델

 

 

 

67. Sharding 기법

 

- 데이터 저장 및 관리 시 높은 성능과 가용성 보장

 

- NoSQL에서 주로 사용되며, 기존 관계형 데이터베이스 시스템에서의 파티셔닝 개념과 동일

 

- 대용량 데이터베이스에서 데이터를 수평분할 하는 방법

 

 

 

68. MongoDB에서 샤딩 기법 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버

 

- Config 서버

 

 

 

69. 빅데이터를 저장 및 처리하기 위한 하드웨어 설계 방법

 

- 분산, 병렬, 클라우드

 

 

 

70. 클라우드

 

- 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술

 

 

 

71. 하둡

 

- 빅데이터를 효율적으로 저장하고 신속하게 분석하기 위해 사용되는 SW

 

- 아파치 재단에서 관리

 

 

 

72. 하둡에서 수집된 데이터를 저장하는 기술

 

- HDFS

 

 

 

73. 하둡 시스템

 

- HDFS와 맵리듀스 시스템으로 이루어짐

 

 

 

74. 맵리듀스에서의 데이터 처리 과정

 

- 맵 -> 셔플 -> 리듀스

 

 

 

75. YARN

 

- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼

 

- 마스터노드/슬레이브 노드 Resource Manager/Node Manager

 

 

 

76. Saas

 

- 사용자가 인터넷을 통해 서비스 제공자에게 접속하여 애플리케이션을 사용하고 사용한 만큼 비용을 지불

 

- 서비스가 운용되고 있는 서버에 대해 운영체제, 하드웨어, 네트워크는 제어할 수 없고 오직 소프트웨어만 사용

 

 

 

77. Iaas

 

- 클라우드 컴퓨팅 서비스에서 고성능 컴퓨팅이 가능한 서버나 대용량 저장장치 제공

 

 

 

78. PaaS

 

- 사용자가 서비스 제공자로부터 개발할 수 있는 환경을 제공 받고, 개발이 완료된 애플리케이션을 제 3의 사용자에게 제공하는 서비스

 

 

 

79. 오피니언 마이닝

 

- 신문기사, 뉴스, 인물, 이슈, 이벤트 등과 같은 관련된 원천 데이터에서 특정 주제에 대한 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출

 

 

 

80. 아파치 sqoop

 

- 테이블과 같이 고정된 Column에 데이터 저장

 

- 정형 데이터 수집

 

- 하둡 플랫폼과 연계하여 관계형 DB 통합 분석 가능

 

- 모든 적재 과정을 자동화하고 병렬처리 방식으로 작업

 

- 명령어는 인터프리터에 의해 한 번에 하나씩 실행

 

 

 

81. 아파치 Flume

 

- 안정적이고 신뢰성 있는 분산 서비스 환경 제공

 

- 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조 가짐

 

- 네트워크 트래픽, 이메일 메시지 등 대량의 이벤터 데이터 전송 가능

 

- 주로 로그 및 센서 등의 반정형 데이터 수집용으로 사용

 

 

 

82. Scrapy

 

- 비정형 데이터의 수집

 

- 파이썬 기반 프레임워크 활용

 

 

 

83. 아파치 sqoop 데이터 수집 절차

 

- 테이블 메타 데이터 수집 -> 자바 클래스 생성 -> Map Task 실행 -> 데이터 import

 

 

 

84. scraping

 

- 크롤러와 달리 하나의 웹문서나 웹사이트에 대한 정보 수집 기술

 

- 웹문서의 정보를 수집

 

 

 

85 RSS

 

- XML 기반의 콘텐츠 배급 프로토콜을 이용하여 웹기반의 최신 정보를 공유하고 해당 콘텐츠의 정보를 수집하는 기술

 

 

 

86. Open API

 

- 실시간 데이터 수집을 이용하여 사용

 

- 다양한 애플리케이션 개발이 가능하도록 개발자와 사용자에게 공개된 기술

 

 

 

87. 측정

 

- 관심있는 대상을 데이터 분석목적에 마게 데이터화하는 것

 

 

 

88. 계량적 변수(Quantitative Variable)

 

- 수치로 측정할 수 있는 데이터를 저장하기 위한 변수

 

 

 

89. 비계량적 변수(Qualitative Variable)

 

- 수치로 측정할 수 없는 데이터

 

 

 

90. 연속적 변수

 

- 기업의 생산량, 매출액 등과 같은 연속적인 모든 값을 가지는 데이터를 저장하기 위한 계량 변수

 

 

 

91. 비율 척도

 

- 계량적 변수를 측정하는 데 주로 사용

 

- 금액, 거리, 무게, 시간 등

 

- 사칙연산 가능

 

 

 

92. 등간척도

 

- 절대 영점이 없는 자료

 

 

 

93. 데이터의 존재론적 특성 구분

 

- 계량 데이터

 

- 비계량 데이터

 

 

 

94.빅데이터 저장 시스템 요구사항 분석 절차

 

- 요구사항 수집->분석->명세->검증

 

 

 

95. 총계

 

- 두 개 이상의 샘플을 하나의 샘플로 합산하여 데이터를 변환하는 과정

 

 

 

96. 변수변환

 

- 변숫값을 x라고 할 떄, 변숫값을 일괄 적용하여 새로운 변수를 생성하는 기법

 

 

 

97. binning 방법(구간화)

 

- 데이터 변환 작업을 위해 구간의 너비를 작게 하여 히스토그램을 표현하는 평활 기법

 

 

 

98. 데이터베이스를 설계하기 위해 데이터 표준화 및 모델링 단계에서 데이터로부터 추출되는 두가지 주요 요소

 

- Entitiy, Attribute

 

 

 

99. 개념적 설계

 

- ER 다이어그램을 활용하여 엔티티들 사이의 관계를 정의하는 단계

 

 

 

100. 논리적 설계

 

- ER 다이어그램을 기반으로 매핑 작업을 수행하고 관계형 스키마를 생성하는 설계 과정

 

 

 

101. 데이터 전처리

 

- 데이터 유형 변환

 

- 데이터 필터링

 

- 데이터 정제

 

 

 

102. 데이터 후처리

 

- 데이터 정규화

 

- 데이터 평활화

 

- 중복 데이터 검출

 

 

 

103. 카산드라

 

- 방대한 데이터를 처리하기 위해 분산 시스템을 이용하며, 오픈소스 DBMS로 페이스북에서 개발되었다

 

- 아파치 소프트웨어 재단의 프로젝트로 관리

 

- 자유 오픈소스 분산형 NoSQL사용 

 

 

 

104. 정형데이터 일관성

 

- 데이터의 구조, 값, 표현 형태가 서로 일치

 

- 참조 무결성 유지

 

 

 

105. 잡음(Noise)

 

- 대상이 가지고 있는 속성값을 있는 그대로의 숫자 또는 기호에서 벗어나게 하는 원하지 않는 임의의 요소들의 개입될 수 있고 이로인해 대상이 잘못 측정되어 참값에서 벗어나는 경우의 데이터

 

 

 

106. 잡음을 제거하기위한 방법

 

- 구간화

 

- 군집화

 

- 회귀모형

 

 

 

107. Map

 

- 맵리듀스 분석 도구에서 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 기능

 

 

 

108. Reduce

 

- 맵리듀스 분석 도구에서 중복 데이터를 제거하고 원하는 데이터 추출하는 작업

 

 

 

109. Presto

 

- 페이스북에서 개발된 하둡을 위한 SQL 처리 에진

 

- SQL 언어를 사용하며 데이터를 빠르게 분석

 

 

 

110. Summingbird

 

- Storm과 하둡을 결합한 스트리밍 맵리듀스 ㅣ스템

 

- 배치 및 스트리밍 작업을 요구하는 어플리케이션 수행

 

 

 

111. Esper

 

- 실시간 처리용 인메모리 기술 활용

 

- 실시간 이벤트 처리를 위한 오픈소스, 자바 기반 소프트웨어

 

 

 

112. AWS의 특징 3S

 

- Simple

 

- Storage

 

- Service

 

 

 

113. 보삽법(Interpolation Method)

 

- 시계열 데이터에서 누락된 데이터 보완 시 활용

 

- 심한 변동을 나타내지 않는 변수의 추정 시 활용

 

- Contextual Information을 고려하여 결측치 보완

 

 

 

114. 모수

 

- 모집단의 특성을 나타내는 수치 자료

 

 

 

115. 정규성(중심극한정리)

 

- 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 따른다는 특성

 

 

 

116. 모집단

 

- 분석하고자 하는 모든 대상이 되는 집단

 

 

 

117. 통계적 추론

 

- 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정

 

 

 

118. 모수적 방법

 

- 중심극한정리를 이용한 정규성에 기반한 추론 방법

 

 

 

119. 비모수적 방법

 

- 정규성 검정 결과 표본들의 평균 분포가 정규분포가 아니고, 표본의 수가 10명 미만으로 소규모인 경우 적용되는 추론 방법

 

 

 

120. 군집 추출

 

 - 모집단을 여러 군집으로 나눈 후, 군집들 중에서 하나의 군집을 선택하여 군집 내에 속한 데이터 전체 추출

 

 

 

121. 탐색적 데이터 분석(EDA)

 

- 데이터 집합이 실제로 어떤 정보를 포함하고 있는지를 파악하는 데 중점을 두고, 통계 기법, 시각화 등을 통해 데이터 집합의 주요 특징을 얻어내는 방식

 

 

 

122. 탐색적 데이터 분석 절차

 

- 분석목적 설정 -> 모집단 정의 -> 표본 추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용

 

 

 

123. 분산

 

- 관찰값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값

 

 

 

124. 범위

 

- 최댓값과 최솟값의 차이

 

 

 

125. 공분산

 

- 두 확률변수 X, Y 편차의 곱의 합으로 구한다.

 

- 두 확률변수 X, Y 가 독립이면 공분산은 0이다.

 

- 공분산은 크기보다 +, -의 부호에 의미가 있는 값

 

- 크기를 고려하려면 공분산을 각각의 확률변수의 표준편차로 나눈 상관계수를 이용

 

 

 

126. 곡선 회귀모형

 

- 독립변수가 1개이고 종속변수와의 관계가 2차 함수 이상인 경우 사용되는 회귀분석 모형

 

 

 

127. 최소제곱법

 

- 표본 데이터를 이용하여 오차를 최소화하는 모수를 추정하는 방법

 

 

 

128. 머신러닝

 

- 코드로 정의되지 않은 동작 실행 능력

 

- 컴퓨터가 학습할 수 있는 알고리즘과 기술 개발 분야

 

- 최초 학습에 들인 시간 및 노력보다 더 빠르고 수월하게 배운 것을 수행

 

- 정확한 작업 수행을 위한 올바른 모델 구축

 

 

 

129. 혼돈행렬(Confusion Matrix)

 

- 분류 목적의 머신러닝 모형 성능 평가 시 활용

 

- 분류 정확도의 평가지표로 사용

 

- 분류의 예측 범주와 데이터의 실제 분류 범주 구분

 

- 교차표 형태로 표현

 

 

 

130. 혼돈행렬

 

1) 정분류율(Accuracy)

 

Accuracy = TN + TP / TN + TP + FN + FP

 

 

 

2) 오분류율(Error Rate)

 

1 - Accuracy = FN + FP / TN + TP + FN + FP

 

 

 

3) 특이도(Specificity)

 

Specificity = TN / TN + FP -> (TNR : True Negative Rate)

 

 

 

4) 민감도(Sensitivity)

 

Sensitivity = TP / TP + FN -> (TPR : True Positive Rate)

 

 

 

5) 정확도(Precision)

 

Precision = TP / TP + FP

 

 

 

6) 재현율(Recall) : 민감도와 같음

 

Recall = TP / TP + FN

 

 

 

7) F1 Score

 

F1 = 2 * (Precision * Recall) / (Precision + Recall)

 

 

 

131. Lasso

 

- 규제 방식 L1 규제

 

- lambda 값으로 패널티 정도 조정

 

- 자동적으로 변수 선택

 

- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티 부여

 

 

 

132. Ridge

 

- 규제 방식 L2 규제

 

- 절대값을 0에 가깝게 하도록 함

 

 

 

133. 시계열 데이터의 분석 절차 순서

 

- 시간 그래프 그리기

 

- 추세와 계절성 제거

 

- 잔차 예측

 

- 잔차에 대한 모델 적합

 

- 예측된 잔차에 추세와 계절성을 더하여 미래 예측

 

 

 

134. 시계열을 구성하는 4가지 요소

 

- 추세(경향)요인

 

- 계절 요인

 

- 순환 요인

 

- 불규칙 요인

 

 

 

135. 시계열분석

 

- 평균이 일정

 

- 모든 시점에 대해 일정한 평균을 가짐

 

- 분산도 시점에 의존하지 않음

 

- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않음

 

 

 

136. 결정계수

 

- 입력 변수가 증가하면 결정계수도 증가

 

- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소

 

 

 

137. 자유도

 

- data of freedom

 

- n-1

 

 

 

138. 비율척도

 

- 0이 절대적인 의미를 가짐

 

 

 

139. SOM

 

- 코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형상화하는 클러스터링 방법

 

 

 

140. ROC 커브

 

- x축에는 1-특이도, y축에는 민감도

 

- 아래 면적이 크면 좋은 성능

 

 

 

141. 프라이밍효과

 

- 합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상

 

 

 

142. 연속형 확률분포

 

- 정규분포

 

- t분포

 

- f분포

 

 

 

143. 이산형 확률분포

 

- 이항분포

 

 

 

144. 로지스틱 회귀

 

- 종속변수가 범주형 데이터일 경우 적용

 

 

 

145. SSR = SST - SSE

 

 

 

146. 피어슨 상관계수

 

- 등간척도

 

- 연속형 변수

 

 

 

147. 스피어맨 상관계수

 

- 서열척도

 

- 순서형 변수

 

- 비모수적 방법

 

 

 

148. F분포

 

- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량 분포

 

- 자유도가 커질수록 정규분포에 가까워짐

 

 

 

149. 카이제곱분포

 

- 두 집단 간의 동질성 검정에 활용

 

 

 

150. t 분포

 

- 자유도가 커질수록, 표본이 커질수록 정규분포에 가까워짐

 

- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용

 

 

 

151. 연관규칙의 척도

 

1) 지지도(Support)

 

- A and B / 전체

 

2) 신뢰도(Confidence)

 

- A and B / P(A)

 

3) 향상도(Lift)

 

- 신뢰도 / P(B)

 

- A and B / P(A) P(B)

 

 

 

152. 랜덤포레스트

 

- 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기를 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

 

- 입력 변수가 많으면 높은 정확도를 보임

 

 

 

153. 부스팅

 

- 예측력이 약한 모형들을 결합하여 강한 예측모형 만드는 방법

 

 

 

154. 지니지수

 

- 지니지수의 값이 클수록 순수도가 낮음

 

 

 

155. 엔트로피 지수

 

- 엔트로피 지수 값이 클수록 순수도 낮음

 

 

 

156. CART

 

- 목적변수가 범주형일 경우 지니지수 이용

 

 

 

157. 파생변수

 

- 자료 변환을 위해 사용되는 방법

 

- 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수

 

 

 

158. 다차원척도법

 

- 다차원 관찰값 또는 개체들 간의 거리, 비유사성을 이용하여 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적

 

 

 

159. 데이터 분석 모형의 오류 분류

 

- 학습 오류, 훈련 오류

 

 

 

160. 홀드아웃 교차검증

 

- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분 후, 훈련집합을 이용하여 분석 모형을 구축하고 시험집합으로 모형의 성능을 평가하는 방법

 

 

 

161. 시뮬레이션

 

- 미래의 불확실한 상황을 확률적으로 모델링하여 예측하는 기법

 

 

 

162. 과대적합

 

- 사용된 예측 모형 함수가 학습 데이터세트 상의 모든 데이터를 오차가 없이 추정하는 예로 제한된 학습 데이터세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상

 

 

 

163. 과대적합

 

- 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 것은 불가

 

- 상대적으로 우수한 모형을 구분하여 사용해 성능을 올린다

 

- 예측오차와 교차 유효성 검사방법을 이용해 과대적합 방지

 

 

 

164. 독립변수

 

- 가설적 변수

 

- 원인적 변수

 

 

 

165. 교차 타당성을 검증하기 위한 교차분석에서 사용되는 검정통계량

 

- 카이제곱 검정 통계량

 

 

 

166. 메타 데이터

 

- 데이터에 대한 데이터

 

- 어떤 목적을 가지고 만들어진 데이터

 

 

 

167. t-검정

 

- 두 집단 사이 평균의 차이를 검정하는 방법

 

 

 

168. 독립성 검정

 

- 교차 타당성을 검증하기 위해 두 변수 간에 관련성이 있는지를 알아보기 위해 사용되는 검정 방법

 

 

 

169. 스피어만 상관계수

 

- 변수들의 순위를 고려하여 평가하는 상관계수

 

170. 정규성

- 회귀분석 모형 적용 시 잔차는 평균이 0이고 분산이 시그마^2인 정규분포

 

171. 등분산성

- 회귀분석 모형 적용 시 잔차들은 같은 분산을 가지는 조건

 

172. 분산분석

- 두 개 이상의 집단들 사이의 비교를 수행하고자 할 떄 사용하며, 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산비교로 얻은 F 분포를 이용하여 가설을 검정

 

173. ANOVA

- 3개 이상의 집단에 대해 평균값을 검정하는 모수적 통계 분석 기법

- F-Test를 이용한 분산분석 방법

 

174. 점추정

- 모수를 단일치로 추측

- 표본을 이용하여 모수의 참값으로 생각되는 하나의 값 추측

 

175. 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기