반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.


1. 빅데이터 분석 프로젝트는 별도의 비용과 위험요소가 있음

 

2. 정형 데이터를 이용한 정량적 분석과 함꼐 정성적 데이터들도 반드시 고려하여 분석한다.

 

3. 데이터 분석은 데이터 분석 과정과 함께 창의적인 문제 해결 능력 요구

 

4. 빅데이터는 일반적으로 대규모 데이터를 분석하여 유용한 정보 제공

 

5. 빅데이터 비즈니스 영역

1) 인프라

- 하드웨어

- 소프트웨어

 

2) 서비스

 

6. 시각화 소프트웨어

- infogram

- tableau

- Google Spreadsheet

 

7. jQuery Visualize

- 시각화 라이브러리

 

8. ArcGIS

- 직관적인 시각화 방법으로 공간 데이터 시각화에 유리하며, 모바일 위치정보 기반으로 빠르게 데이터를 탐색하는 도구로 발전한 시각화 방법

 

9. Python

- 사용하는 플랫폼에 독립적이며, 객ㅊ에지향적, 동적 대화형 인터프리터식 언어로서 다양한 플랫폼에서 사용이 가능하고 다른 언어로 개발된 모듈들을 서로 연결하는 기능 제공

 

10. 시각화를 위한 프로그래밍 방법

- Python

- Javascript

- R

 

11. InstantAtlas

- 인터랙티브한 지도 제작과 레포팅 기능 제공

 

12. Tableau

- 시각적 분석, 데이터 탐색 기능을 제공하는 표준 차트 작성 기능과 함께 레포팅 도구를 지원하는 도구

 

13. JavaScript

- 정적인 데이터 시각화 외에 애니메이션 기능 제공

- 인터랙티브한 시각화 기능 제공

- 웹 표준기술인 HTML5, CSS와 함께 사용

- 다양한 웹브라우저에서 서비스 제공

 

14. 분석적 사고방식

- 전문적 지식, 창의성, 직관적 판단 필요

- 현상과 사실을 객관적으로 나열하고 이를 연결하며, 데이터 분석을 통해 숨겨진 현상과 사실을 찾아내 문제 해결

- 주어진 문제를 해결하기 위하여 직관적으로 접근하기보단느 관계와 맥락을 구성한 후, 직관성과 함께 전문적 지식, 창의성을 기반으로 문제 해결

 

15. 비즈니스 기여도 분석

- 데이터 분석결과가 비즈니스의 효율성(매출 증대, 비용 감소, 고객의 증가 등) 향상에 어느 정도 기여했는지를 분석하는 방법

 

16. 비즈니스 기여도 분석에 영향을 미치는 요인

- 분석을 위한 데이터의 품질

- 서비스 제공 현황

- 주어진 비즈니스 상황

 

17. 보편적으로 사용되고 있는 비즈니스 기여도 평가 방법

- KPI(성과지표) 설정, 비교 및 분석을 통한 평가

 

18. 인터넷 전자상거래 광고업체에서 사용하고 있는 비즈니스 성과지표

- Website Traffic Report

- Unique Visitors Report

- Campaign Performance Report

 

19. 프로세스(Process)

- 조직이 한 개 이상의 입력을 이용하여 가치 있는 산출물을 만드는 활동

 

20. 데이터 분석

- 수집한 데이터에서 변수들 사이의 관련성을 파악

- 어떤 문제와 관련된 데이터를 수집 및 분해하여 데이터 속에 숨어있는 의미있는 패턴을 찾아내서 문제 해결이나 의사결정 등에 활용하는 것

 

21. 빅데이터 시대에 데이터에 기반을 둔 의사결정이 그렇지 않은 경우에 비해 우수한 결과 도출

 

22. 비즈니스 인텔리전스(Business Intelligence)

- 고객, 제품, 서비스, 운영, 공급자, 파트너에 대한 개별 정보와 관련 데이터를 수집 및 관리, 분석

- 과거 성과를 분석하고 미래를 예측할 수 있는 운영상의 데이터 처리 시스템

- 데이터를 수집 및 분석해 이를 근거로 올바른 의사결정을 내릴 수 있도록 해주는 솔루션 및 기술

- 의사결정에 사용되는 기술, 프로세스, 스킬, 응용 프로그램 등을 모두 포괄

 

23. 딥러닝

- 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합

- 최근 기계가 데이터를 통해 자신만의 규칙을 생성하여 정보를 학습하는 형태로 발전

 

24. CNN(Convolutional Neural Network)

- 주로 시각적 이미지를 분석하는 데 사용되며, 이미지의 특징을 추출하는 필터 역할을 하는 컨볼루션 레이어를 적요앟여 효율적으로 고차원의 이미지를 인식하고 분류

- 이미지 인식 및 분석을 위해 주로 사용되는 딥러닝 기법

 

25. 순환신경망(RNN, Recurrent Neural Network)

- 과거 정보와 현재의 입력값을 결합하는 방법

- 순서를 고려한 학습 모델로서 데이터의 순서가 중요한 시계열 및 언어 처리 분석 등에 활용

 

26. 인공신경망과 관련된 용어

- Layer

- Node

- Hidden Layer

 

27. 유사성(Similarity)

- 사례기반 추론에서 사용되는 용어

 

28. 구글 클라우드 플랫폼(GCP)
- 지도학습 데이터를 입력하고 예측, 분류 작업 수행

- 연속량과 불연속량에 관계없이 다양한 데이터 학습 가능

- 스팸 메일 판정, 문서 분류, 감정 판단 및 진단, 매출 예측 등에 활용

 

29. IBM Watson

- 자연어 분류, 대화, 검색 및 순위 매기기

- 문서 변환, 음성 인식 및 합성 등의 고급 기능 제공

- 자연어 데이터를 이용한 인지 컴퓨팅 기능 제공

- 대량의 정보 기억, 사람에 준하는 최적의 정보 제공이 목표

 

30. Tensorflow

- 구글에서 제공되는 딥러닝 라이브러리

- 수치 계산 도구 지원

- 파이썬 사용 가능

- 알파고 개발에 활용

 

 31. Keras

- Tensorflow, Theano에 대응하여 만들어짐

- 자바스크립트 라이브러리 활용

 

32. Caffe

- 컴퓨터 비전 연구를 위해 만들어짐

- 합성곱 신경망 구축

 

33. MXNet

- 파이썬, C++, R.Julia, 자바스크립트 사용

 

34. 머신러닝 기반 데이터 분석 모형 적용 절차

- 비즈니스 이해 및 정의 -> 데이터 수집 -> 데이터 전처리 및 탐색 -> 모델 훈련 -> 모델 성능 평가 -> 적용

 

35. 빅데이터 분석결과의 문서화

- 구조화된 데이터를 정렬, 그룹, 합계, 필터링, 형식화의 과정을 거쳐 최종적으로 사전에 정의된 양식에 구조화된 데이터를 처리하는 프로세스

 

36. 빅데이터 분석결과의 문서화의 분류 방법

- 읽기용, 발표용(요약본)

 

37. 읽기용 보고서

- 보고서 유형 중 보고를 받는 사람에게 좀 더 구체적인 자료를 제공하는 목적

- 도표와 설명을 잘 배합하여 자세한 내용으로 구성하는 문서

 

38. 요약본 보고서

- 보고받는 사람이 한 눈에 전체 내용을 파악하고 이해하기 쉽도록 그래프, 표 등을 이용하고 수치를 시각화하여 보여주는 문서

 

39. 분석결과에 대한 보고서 작성 전 고려사항

- 목차 구성

- 서식 디자인

- 작성 기준 수립

 

40. 보고서 작성 기준

- 객관적 시각에서 보고서 작성

- 독자에 대한 이해

- 명확한 문장의 흐름

- 독자의 이해를 위해 가능한 전문적 용어 사용 지양

 

41. 산출물 및 문서화 관리 대상

- 데이터 분석 계획서

- 데이터 및 확보 방안

- 모델 훈련 및 예측 결과

 

42. 데이터 분석결과 보고서에 포함되어야 하는 내용

- 데이터 분석 과정

- 분석 프레임워크 및 모형

- 분석결과의 시사점 및 개선과제

 

43. 데이터 분석의 목적이 비즈니스 이슈 해결 또는 문제 해결인 경우 분석 프로세스의 마지막 수행 업무

- 데이터 분석결과의 의미 및 시사점 제시

- 분석결과의 시사점

- 개선과제를 수행할 부서 및 조직

- 향후 개선과제

 

44. Proof of Concept(POC)

- 효과검증

- 솔루션이나 접근 방법 등 개념에 대한 검증을 위해 업체들에게 요청하여 수행하는 작업을 통칭

- 특정 방식이나 아이디어를 실현하여 그 타당성을 검증하는 방법

 

45. 문서화 작업 대상자 중 문서 검사와 학정 업무를 수행하는 사람

- 프로젝트 관리자(PM)

 

46. 문서화 작업 대상자 중 문서 번호 할당, 문서 등록 및 배포의 업무를 수행하는 사람

- 문서관리 담당자

 

47. 비즈니스 인텔리전스

- 고객, 제품, 서비스, 운영 등의 개별 정보 및 관련 데이터를 모으고 관리하며, 분석하는 것을 의미

- Adhoc 쿼리 작성 및 분석

- 보고서 alerting

- 엔터프라이즈 레포팅

 

48. OLTP(On-line Transaction Processing)

- 보통 데이터베이스에 저장

- 은행 창구 업무나 항공사 예약 등 일상 업무와 관련된 데이터

- Transaction 지향 application을 손쉽게 관리할 수 있도록 도와주는 정보 시스템의 계열

 

49. OLAP(On-line Analytical Processing)

- 보통 데이터웨어하우스에 저장

- 산업 성장률과 제품의 변화 분석 업무에서 분석적 질의들을 처리하기 위한 분석 뷰 제공

- 최종 사용자가 다차원 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정에서 등장한 데이터 처리 서비스

 

50. BI 기능 - 엔터프라이즈 레포팅

- 기업에서 주로 사용되는 출력 형태 제공

- 웹기반 형태의 보고서 자동 제공

- 주기적인 제품 및 서비스 현황 자료 제공

 

51. BI 기능 - Adhoc 쿼리 작성 및 분석

- 트랜잭션 수준까지의 데이터 정밀 분석결과 제공

- 사용자와의 인터랙티브 정보교환 기능 제공

 

52. BI 기능 - Cube 분석

- 지역별 판매 예측 기능 수행

- 직원별 판매 예측 기능 수행

 

53. 빅데이터 분석 모형의 운영 프로세스

- 운영 계획수립 -> 시스템 구축 -> 분석 및 운영

 

54. 빅데이터 저장 및 관리 시스템 관련 소프트웨어의 운영 계획 수립 절차

- 시스템 설치 및 운영 계획수립 -> 데이터베이스 용량 계획수립 -> 소프트웨어 운영 계획수립

 

55. A/B Test

- 데이터 분석결과의 개선점을 적용한 경우와 그렇지 않은 경우로 구분

- 가설 입증을 위한 대조군과 실험군 설정

- 빅데이터 분석 모형의 가치 검증

- 버킷 테스트, 대조실험, 분할-실행 테스트라고도 함

 

56. Proof of concept(POC)

- 빅데이터 서비스 구현 전에 일부 데이터 대상으로 검증

- 데이터 분석결과의 적용 및 검증

- 분석 모델의 성능평가 및 개선 가능성 모니터링

- 데이터 분석 모형의 적절성 검증

- 분석결과 적용 시 발생할 수 있는 제반사항 사전 점검

- POC 단계에서 제시된 개선 사항을 반영하여 반복적인 피드백 업무 수행

 

57. Migration(마이그레이션)

- 하나의 운영환경으로부터 더 나은 운영환경으로 옮겨가는 과정

- 새로운 하드웨어, 소프트웨어, 데이터베이스, 저장장치 등이 바뀌는 환경

- 단일 시스템이 옮겨 가는 것을 소규모 이주라고 함

- 많은 시스템들이 새로운 애플리케이션으로 옮겨 가는 것을 대규모 이주라고 함

- 윈도우 환경으로부터 유닉스 기반의 운영체제로 옮기는 것

 

58. 데이터 시각화

- 인간의 시지각 능력을 토대로 데이터에 대한 이해와 설득에 도움을 주기 위해 그림이나 도형 등의 그래픽 요소들을 이용하여 데이터를 묘사하고 표현하는 것

- 같은 카테코리 내 많은 양의 데이터에 의미를 부여하여 정보 사용자들에게 효율적으로 전달하기 위한 과정

- 많은 데이터를 동시에 차별적으로 보여줄 수 있음

- 정보를 직관적으로 이해할 수 있게 도와줌

 

59. Visualization

- 복잡한 결과를 단순화시켜 상호 간의 커뮤니케이션을 위해 사용되는 기법

 

60. 데이터 구조화 프로세스

- 시각화 프로세스 중 시각화 목표 설정, 데이터 표현 규칠 도출, 패턴 탐색, 시각화 요건 정의, 사용자 시나리오 작성과 관련된 업무

 

61. 구조화(Parsing)

- 데이터 시각화 목표를 설정하고, 데이터 및 분석결과를 토대로 데이터의 표현 규칙과 패턴을 탐색하여 시각화 요건을 정의한 후, 사용자에 따른 시나리오를 작성하고 스토리를 구성

 

62. 시각화 세분화한 7단계

- 데이터 획득 -> 구조화 -> 추출 -> 마이닝 -> 시각화 -> 재정의 -> 상호작용

 

63. 시각화 알고리즘의 기술 분류 방법

- 기하학적 기술

- 그래프 기술

- 화소 지향적 기술

- 동적 인터랙션 기술

- 왜곡 기술

 

64. 정보 표현을 위한 그래픽 요소

- 위치, 크기, 모양, 색, 명도, 기울기, 질감, 패턴 등

 

65. 하이브리드 기술

- 다양한 기술을 혼합하여 시각화의 표현성을 극대화시키는 시각화 기술

 

66. 왜곡 기술

- 텍스트, 이미지, 화상 등의 일그러짐 표현을 이용한 시각화 기술

 

67. 자주 사용되는 시각화 방법

- 일러스트레이션 활용

- 차트와 통계 도구

- 프로그래밍

 

68. SAS Visual Analytics

- 실시간 비정형 데이터 분석, 시각화 그래프, 예측, 레포팅, 모바일 BI 등의 기능 제공

 

69. 상업용 데이터 분석 도구

- IBM SPSS

- SAP Infinite Insight

- SAS

 

70. Google Trend Analysis

- 검색 시스템을 이용하여 검색 시 사용하는 단어를 지역별, 시계열별로 분석하여 보여줌

- Flu와 관련된 단어의 검색 빈도가 독감환자의 수와 거의 일치하기도 하고, 이를 확장하여 소비자의 관심을 파악할 수 있어 소비자의 기호 변화를 파악할 수 있음

 

71. 프로그래밍

- 분석 대상인 데이터를 유리하게 조작할 수 있도록 기본적인 기능이 제공되지만, 자신의 목적에 맞게 적절히 코딩하기 위한 로직에 익숙하도록 하는 것

 

72. 데이터 시각적 표현 방법

- 색상, 위치, 네트워크

 

73. 데이터의 시각적 표현을 위해 사용되는 방법

- 시간

- 다중 표현

- 위치

 

74. 색상 시각화 표현 방법

- 표현해야 할 데이터세트가 많은 경우 효과적으로 사용되며, 규칙성과 특이성을 구분하기 위해 유용하게 사용되는 시각화 표현 방법

 

75. 다중 표현 시각화 방법

- 크기, 색상, 위치 등의 표현을 혼합하여 사용하는 시각화 방법

 

76. 데이터들 사이의 관계를 표현하는 방법

- Diagram

- Tree

- 선

 

77. 빅데이터 시각화 도구

- R

- SPSS

- SAS

 

78. Node와 Link를 활용하여 데이터들 사이의 관련성을 표현하기 위해 주로 사용하는 방법

- Tree

 

79. 트리맵(Tree Map)

- Color bar를 사전에 정의하고 색에 대한 순서성을 이용하여 데이터의 특징 표현

- 분포 시각화

 

80. 체르노프 페이스

- 다차원 속성을 지닌 통계 데이터를 사람의 얼굴로 이미지화

 

81. Density Plot

- 데이터 측정값을 몇 개의 구간으로 나누어 각 구간의 도수에 비례하는 높이로 표현

 

82. Scatter Plot

- 측정 변수들 사이의 관계를 설명하기 위한 차트로 두 변수사이의 상호 영향력을 이해하기 쉬움

 

83. Histogram

- 데이터 측정값을 몇 개의 구간으로 나누어 각 구간의 도수에 비례하는 높이로 표현

 

84. 시간 시각화를 위한 데이터 유형의 표현 방법

- 연속형, 분절형

 

85. 시각화 분석 알고리즘의 적합성 검토 절차

- 시각화 알고리즘 비교 및 분석

- 적합성 검토

- 시각화 구현

 

86. 시각화 도구의 적합성 검토 항목

- 사용 환경 및 플랫폼

- 시각화 도구의 기능

- 웹 퍼블리싱 기능의 지원

 

87. 스토리보드

- 영화나 TV 광고 또는 애니메이션 같은 영상물을 제작하기 위해 작성하는 문서를 뜻하는 단어

- 데이터 분석결과 보고서의 내용을 작성하기 위하여 전달하고 하는 메시지를 명확하게 작성

- 읽는 독자가 이해하기 쉽게 핵심 내용이 잘 정리되도록 사전에 작성 기준 마련

 

88. Jacques Bertin의 시각변수의 특징

- 선택성 : 시각변수가 서로 다른 경우 다른 시각 기호와 분리하기 쉽고 두드러지게 보이는 특징

- 관련성 : 시각 변수가 서로 다른 경우 다른 시각 변수와 같은 그룹이거나 동일 그룹인 사실을 알 수 있는 특징

- 정량성 : 시각 변수의 수치적인 차이로 두 시각 기호가 다르다고 판단할 수 있는 특징

- 순서성 : 

- 변종의 수 : 시각 변수와 관련된 Task가 추구하는 성질을 유지할 수 있는 서로 다른 종류의 수를 구분하여 표현하는 특징

 

89. 데이터 시각화를 통해 메시지를 효과적으로 전달하는 데 사용하는 주요 요소

- 기하학적 요소

- 장식요소

 

90. jacques Bertin이 제시한 데이터 시각화 방법론의 근간이 되는 이론

- 게슈탈트 이론

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기