반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.


1. 빅데이터 활용 기술

1) 연관규칙학습

2) 유형분석

3) 유전자 알고리즘

4) 기계학습

5) 회귀분석

6) 감정분석

7) 소셜네트워크분석(사회관계망분석)

 

2. 빅데이터 위기 요인과 통제 방안

1) 사생활 침해

- 익명화 기술 필요

 

2) 책임 원칙 훼손

- 책임을 물어야 함

 

3) 데이터 오용

- 알고리즘 접근 허용

 

3. 위기 요인에 따른 통제 방안

1) 동의에서 책임으로

2) 결과 기반 책임 원칙 고수

- 책임 원칙 훼손 위기요소에 대한 대응책

 

3) 알고리즘 접근 허용

- 알고리즈미스트 필요

- 데이터 오용의 위기요소에 대한 대응책

 

4. 빅데이터 활용의 3요소

1) 데이터

- 모든 것의 데이터화

 

2) 기술

- 진화하는 알고리즘, 인공지능

 

3) 인력

- 데이터 사이언티스트, 알고리즈미스트

 

5. 빅데이터 분석과 전략 인사이트

- 단순히 빅데이터에 포커스를 두지 말고 분석을 통해 가치를 만드는 것에 집중

 

6. 산업별 분석 애플리케이션

1) 금융 서비스

- 신용점수 산정, 사기탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성분석

 

2) 소매업

- 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화

 

3) 제조업

- 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발

 

4) 운송업

- 일정관리, 노선 배정, 수익 관리 등

 

5) 헬스케어

- 약품 거래, 예비 진단, 질병 관리

 

6) 병원

- 가격 책정, 고객 로열티, 수익 관리

 

7) 에너지

- 트레이딩, 공급 및 수요 예측

 

8) 커뮤니케이션

- 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리

 

9) 서비스

- 콜센터 직원관리, 서비스-수익 사슬 관리

 

10) 정부

- 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화

 

11) 온라인

- 웹 매트릭스, 사이트 설계, 고객 추천

 

12) 모든사업

- 성과관리

 

7. 일차적인 분석 문제점

1) 새로운 기회를 포착하기 어려움

2) 환경변화와 같은 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하기 어려움

 

8. 전략도출 가치기반 분석

- 해당 사업에 중요한 기회를 발굴

- 주요 경영진의 지원

- 활용 범위를 더 넓고 전략적으로 변화

- 전략적 인사이트를 주는 가치기반 분석단계

 

9. 데이터 사이언스

1) 의미

- 데이터 공학, 수학, 통계학, 컴공, 시각화 등의 전문지식을 종합한 학문

 

10. 데이터 사이언스의 영역

1) 분석적 영역

- 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등

 

2) 비즈니스 컨설팅 영역

- 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

 

3) 데이터 처리와 관련된 IT 영역

- 프로그래밍, 데이터 엔지니어링, 데이터웨어하우스, 고성능 컴퓨팅, 시그널 프로세싱 등

 

4) 전략 컨설턴트

- Analytics, 비즈니스 분석

 

5) IT 컨설팅

- IT

- 비즈니스 분석

 

11. 데이터 사이언티스트의 요구 역량

1) Hard Skill

- 빅데이터에 대한 이론적 지식

- 분석 기술에 대한 숙련

 

2) Soft Skill

- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판

- 설득력 있는 전달 : 스토리텔링, 시각화

- 다분야간 협력 : 커뮤니케이션

 

12. 인문학의 외부환경의 변화

1) 컨버전스 -> 디버전스

- 단순세계화에서 복잡한 세계화로의 변화

 

2) 생산 -> 서비스

- 비즈니스 중심이 제품생산에서 서비스로 이동

 

3) 생산 -> 시장창조

- 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화

 

13. DBMS

- Data Base Management System

 

1) 관계형 DBMS

- 컬럼과 로우를 이루는 하나 이상의 테이블

- 주키로 각 로우 식별

- 엔티티 타입

 

2) 객체지향 DBMS

- 정보를 객체 형태로 표현하는 데이터베이스 모델

- 상속성

- 캡슐화

 

3) 네트워크 DBMS

- 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 DB 모델

 

4) 계층형 DBMS

- 트리 구조를 기반으로 하는 계층 데이터베이스 모델

 

14. SQL

- Structured Query Language

- 데이터베이스를 사용할 때 데이터베이스에 접근할 수 있는 데이터 베이스의 하부 언어

- 데이터의 정의와 조작을 할 수 있음

 

1) SQL 집계함수

- AVG : 지정한 열의 평균 값을 반환

- COUNT : 테이블의 특정 조건이 맞는 것의 개수를 반환 

- SUM : 지정한 열의 총합을 반환

- STDDEV : 지정한 열의 분산을 반환

- MIN : 지정한 열의 가장 작은 값을 반환

- MAX : 지정한 열의 가장 큰 값을 반환

 

15. Data 개인정보 비식별 기술

1) 데이터 마스킹

- 데이터의 길이, 유형, 형식과 같은 속성을 유지한채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술

- 예를 들어, 홍길동 -> 홍**

 

2) 가명처리

- 개인정보 주체의 이름을 다른 이름으로 변경하는 기술

- 예를 들어, 홍길동 -> 바자가

 

3) 총계처리

- 데이터의 총합 값을 보임으로 개별 데이터의 값을 보이지 않도록 하는 것

 

4) 다이터값 삭제

- 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제

- 개인과 관련된 날짜 정보 등은 연단위로 처리

 

5) 데이터 범주화

- 데이터의 값을 범주의 값으로 변환하여 값을 숨김

 

16. 데이터 무결성(Data Integrity)

- 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터의 정확성을 보증하는 것

- 개체 무결성, 참조 무결성, 범위 무결성이 있음

 

17. 데이터 레이크(Data Lake)

- 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

- 정형 또는 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소

- 하둡 등

 

18. 하둡(Hadoop)

- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술

- HDFS(분산파일 시스템)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능 제공

- 맵리듀스로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술

- 하둡의 부족한 기능을 보완하는 하둡 에코시스템 등장

 

19. 아파치 스파크(Apache Spark)

- 실시간 분산형 컴퓨팅 플랫폼

- 스칼라로 작성

- 스칼라, 자바, R, 파이썬, API를 지원

- In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠름

 

20. 스마트 팩토리

- 공장 내 설비와 기계에 사물인터넷이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성 극대화

 

21. 머신러닝 & 딥러닝

- 머신러닝은 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법

- 딥러닝은 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기 위하여 인공신경망 등의 기술을 기반하여 구축한 기계 학습 기술

 

22. 데이터양의 단위

- KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB

 

23. 정형 데이터

- 형태가 있으며, 연산이 가능함

- 주로 관계형 데이터 베이스에 저장

- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운편

- 관계형 데이터베이스, 스프레드시트, CSV 등

 

24. 반정형데이터

- 형태가 있으며, 연산이 불가능

- 주로 파일로 저장됨

- 데이터 수집 난이도가 중간.

- 보통 API 형태로 제공되기 때문에 데이터처리 기술이 요구

- XML, HTML, JSON, 로그형태, 웹로그, 센서 데이터 등

 

25. 비정형데이터

- 형태가 없으며, 연산이 불가능

- 주로 NoSQL에 저장됨

- 데이터 수집 난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

- 소셜데이터, 영상, 이미지, 음성, 텍스트 등

 

26. XML

- Extensible Markup Language의 약자로 다목적 마크업 언어

- 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고받을 수 있게 하여 HTML의 한계를 극복할 목적으로 만들어짐

- XHTML, SVG 등의 XML 기반 언어가 있음

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기