1. 데이터의 이해
- DIKW 피라미드(Data, Information, Knowledge, Wisdom)
1) 데이터
- 관찰이나 측정을 통해서 수집된 사실이나 값으로 수치, 스트링 등의 형태로 표현
- 가공하지 않는 것. 있는 그대로.
- Raw Data
- 실제 세상에 너무도 넓게 존재하는 사실적인 자료
- 아직 특정의 목적에 대하여 평가되지 않은 상태의 단순한 여러 사실
- 핵심 : 사실적 자료
- ex) 강수량
2) 정보
- 데이터를 Processing한 것
- 의미 있는 패턴으로 정리한 것
- 데이터를 일정한 프로그램 처리 및 가공하여 특정목적을 달성하는 데 필요한 정보 생산
- 데이터가 가공된 형태로, 의사결정을 할 수 있게 하는 데이터의 유효한 해석이나 상호관계 의미를 나타냄
- 핵심 : 처리가공
- ex) 지역별 연간 최대 강수량
3) 지식
- 동종의 정보가 집적되어 일반화된 형태로 정리된 것
- 정보가 의사결정이나 창출에 이용되어 부가가치가 발생
- 핵심 : 부가가치, 일반화, 의사결정
- ex) A마을의 수해 대책
4) 지혜
- 지식을 얻고 이해하고 응용하고 발전해나가는 정신적인 능력
- Internalize 내재화된 능력
- 핵심 : 내재화된 능력
- ex) A 마을 주민 생활 노하우
2. 데이터의 특징 - 존재적 특징
1) 정성적 데이터
- 데이터 자체가 하나의 텍스트를 이루고 있음
- 데이터 하나하나가 함축된 의미를 갖고 있음
- 언어, 문자 등으로 구성
- 비정형 데이터
- 파일이나 Web 등
2) 정량적 데이터
- 여러 속성이 모여 하나의 객체를 형성하고, 각 속성은 결합하여 측정이나 설명이 가능하도록 구성
- 정형, 반정형 데이터
- 속성이 모여 객체를 이룸
- 수치, 도형, 기호 등으로 구성
- DB, 스프레드시트 등
3. 데이터의 특징 - 형태적 특징
1) 정형 데이터(Structured data)
- 고정된 필드에 저장된 데이터로 저장하는 데이터의 구조(스키마->메타 데이터)가 미리 정의된 데이터
- Type, Length가 미리 정의
- DBMS에 스키마를 관리하는 DB가 별도로 존재하여 DB 저장소와 구분됨
- OLTP, OLAP 데이터 등
- SQL 언어, Open API로 수집
- 수집과 처리 난이도는 낮음
2) 반정형 데이터(Semi-Structured data)
- 데이터 내부에 정형데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장
- HTML, XML, JSON, 로그 형태
- 크롤러, Open API 등으로 수집
- 수집과 처리 난이도는 보통
3) 비정형 데이터(Unstructured data)
- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 데이터
- 텍스트, 이미지, 동영상 등 멀티미디어가 대표적인 비정형 데이터
- 텍스트 데이터, 이미지, 동영상, pdf 등
- 동영상, 이미지 -> 이진 파일 형태로 저장
- 소셜 데이터 텍스트 -> 스크립트 파일 형태로 저장
- 크롤러, 촬영 등으로 수집
- 수집과 처리 난이도는 높음
4. 파일시스템(File System)
- 파일 중심의 관리 형태로 데이터를 파일에 저장하거나 파일에서 정보를 읽어 데이터를 추가, 삭제, 수정, 검색 등의 기능을 통해 사용자가 원하는 정보를 손쉽게 이용하도록 해주는 프로그램
5. 데이터베이스(DataBase)
- 한 조직의 여러 응용시스템이 공용하기 위해 최소의 중복으로 통합, 저장된 운영 데이터의 집합
- 통합(Integrated) : 똑같은 데이터가 원칙적으로 중복되어 있지 않다는 것을 의미 / 최소의 중복 또는 통제된 중복
- 저장(Stored) : 컴퓨터가 접근할 수 있는 저장 매체에 저장된 데이터
- 운영(Operational) : 어떤 조직의 고유 기능 수행을 위한 데이터
- 공용(Shared) : 조직에 있는 여러 응용 시스템들이 공동으로 생성하고 유지하며 이용하는 공동의 데이터
6. 데이터베이스 장점
- 중복성 감소, 불일치성, 데이터 공유, 표준화, 보안, 무결성
7. 데이터베이스 특징
- 실시간 접근 : 저장된 데이터는 실시간 접근성이 보장
- 계속적인 변화 : 갱신, 삽입, 삭제 등의 연산에 의해 내용이 동적으로 변경
- 동시 공유 : 저장된 데이터는 다수의 사용자에 의해 동시에 공유
- 내용에 의한 참조 : 저장된 데이터의 내용을 이용하여 데이터에 접근 가능
- 물리적 관점 : 디스크, 테이프 등 저장 장치에 실제 수록된 데이터 레코드의 물리적 표현
- 논리적 관점 : 개체와 엔티티로 데이터베이스를 표현하고 객체로써 서로 구별
8. DBMS(Database ManageMent System)
- Database를 관리해주는 소프트웨어 시스템
- 응용프로그램과 Database 사이의 중재자
- 사용자와 Database를 중재
- 파일 시스템에서 야기된 데이터의 종속성과 중복성의 문제를 해결하기 위한 시스템
- DB와 DBMS는 다름
- DDL, DML, DCL
9. DBMS 역할
- 자료 정의기 : 스키마를 입력하고 Data Dictionary에 저장
- 질의 처리기 : Query Processor로 SQL 사용
- 트랜잭션 관리기 : 데이터베이스 프로그램들을 병행제어(직렬화 보장)
- 저장 관리기 : Data를 하드디스크에 저장하고 읽기
10. DBS(Database System)
- 사용자, DB, DB Language, DBMS를 합친 것
- 데이터를 DB에 저장하고, 관리해서 필요한 정보를 생성하는 컴퓨터중심의 시스템
- 사용자 : 데이터베이스 관리자(DBA), DB 응용 프로그래머, 데이터베이스 사용자
11. 3단계 구조(3-Level Architecture)
- DB를 보는 관점(View)에 따라 3개의 계층으로 분리하여 사용자에게 내부적으로 복잡한 DB 구조를 단순화시킨 관점.
1) 외부 스키마(External Schema) : End User, 사용자 관점 접근하는 특성에 따른 스키마 구성
2) 개념 스키마(Conceptual Schema) : 외부스키마를 종합해서 통합적인 관점
3) 내부스키마(Internal Schema) : 내부 스키마로 구성, DB가 물리적으로 저장된 형식, 물리적 장치에서 Data가 실제적으로 저장되는 방법을 표현하는 스키마
12. 데이터 독립성
- DB에 대한 사용자의 View와 DB가 실제 표현되는 View를 분리하여 변경 간섭을 줄이는 것이 주 목적
1) 논리적 독립성: 개념 스키마가 변경되어도 외부 스키마에는 영향을 미치지 않도록 지원하는 것 / 논리적 구조가 변경되어도 응용 프로그램에 영향 없음 / 사용자 특성에 맞는 변경가능 / 통합 구조 변경 가능
2) 물리적 독립성 : 내부스키마가 변경되어도 외부/개념스키마는 영향을 받지 않도록 지원하는 것 / 저장장치의 구조변경은 응용프로그램과 개념스키마에 영향 없음
13. 스키마
- DB에 저장되는 데이터의 구조 및 유형을 정의하는 것
- DB의 전체적인 정의를 나타내며, 일반적으로 논리 스키마 지칭
- 한 번 정의되면 잘 변경되지 않음
- DDL 사용
14. 인스턴스
- DB에 저장되는 값들을 나타냄
- 계속적으로 변화하는 DB 특성으로 인해 자주 변경
- DML 사용
15. 트랜잭션(Transaction)
- 한번에 수행되어야 할 DB의 일련의 Read와 Write 연산을 수행하는 단위
- 하나의 논리적인 기능을 수행하기 위한 자업의 단위로서 DB의 일관된 상태를 또 다른 일관된 상태로 변환시킴
- 업무처리의 단위(Logical unit of work)
16. 트랜잭션의 특성
- Atomicity(원자성) : 트랜잭션의 수행은 성공하든지 실패해야 함
- Consistency(일관성) : 트랜잭션은 데이터의 일관성 보장
- Isolation(고립성) : 각 트랜잭션은 동시에 수행되지 않고 각각 고립되어 실행
- Durability(내구성) : 트랜잭션이 성공적으로 완료(Commit<-> Rollback)된 뒤에, 그 데이터는 유실되지 않아야 한다.
17. 데이터 모델
1) 계층형 데이터 모델
- 장점 : 데이터 처리 신속 / 성능예측 용이
- 단점 : 운용 복잡 / M : N 관계 복잡 / 데이터 중복 존재
2) 네트워크형 데이터 모델
- 장점 : 노드 사이가 대등 / M : N 관계 표현 용이
- 단점 : 시스템 설계 복잡 / 데이터 종속성 발생/ 운용 복잡
3) 관계형 데이터 모델
- 행과 열을 가지는 2차원 배열
- 관계로 연결되어 구성
- 엔터티의 위치를 가리키는 물리적인 포인터를 가지고 있지 않음
- 장점 : 업무 변화에 대한 적응력 우수 / 시스템 설계 단순화 / 중복 데이터 제거
- 단점 : 시스템 자원 많이 필요 / M : N 관계 표현 시 어려움
18. 데이터 웨어하우스(Data Warehouse, DW)
- 수년간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍이 없이 즉시 여러 각도에서 분석할 수 있도록 하는 통합시스템
- 데이터 웨어하우징(Datawarehousing)은 데이터 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스
19. DW 특징
1) 주제지향적(Subject-Oriented) : 데이터 중복을 최소화하고, 모든 업무에 공유할 수 있도록 통합하는 기준 / 전사공통 관심 주제를 중심으로 관련데이터 통합
2) 통합적(Integrated) : 전사적인 데이터 표준화를 통해 데이터 통일성 확보
3) 시계열적(Time-Varient) : 오랜 기간 동안 데이터 보유 / 시간 경과에 따른 데이터의 변화과정 파악 가능
4 비휘발성 : 데이터 적재와 데이터 엑세스만 존재 / 갱신 프로세스 존재하지 않음
20. DW 구성요소
- ETT
- ODS
- DM(Data Mart)
- OLAP
- 메타데이터
21. NoSQL(Not only SQL)
- 관계형 DB의 한계를 벗어나 Web2.0의 비정형 초고용량 데이터 처리를 위해 데이터의 읽기보다 쓰기에 중점을 둔, 수평적 확장이 가능하며 다수 서버들에 데이터 복제 및 분산 저장이 가능한 DBMS
- 초고용량 데이터 처리 등 성능에 특화된 목적을 위해 비관계형 데이터 저장소에 비구조적인 데이터를 저장하기 위한 분산저장시스템
- 장점 : 수평적인 확장 용이, 쓰기 성능 향상, Disk 기반 저비용으로 대용량 데이터 저장소 구축 용이
- 단점 : 구현 기술 난이도 높음 / 오픈 소스 기반으로 안정성 보장 및 기술지원 곤란
22. NoSQL CAP
- Consistency : 데이터 일관성
- Availability : 가용성
- Partition Tolerance : 단절내성
23. NoSQL BASE 특성
- Basically Available : 기본적으로 항상 가용
- Soft-State
- Eventually Consistent
- 성능에 초점
- 쿼리디자인 중요
'빅데이터 분석 > 빅데이터 분석 학습' 카테고리의 다른 글
엔트로피(Entropy) 머신러닝 통계 - 의사결정나무(Decision Tree) (0) | 2020.12.17 |
---|---|
파이썬 크롤링을 이용한 주식매매동향 간략한 데이터 분석 (1) | 2020.11.28 |
인포그래픽과 빅데이터 시각화의 차이 (0) | 2020.09.09 |
통계 일변량 분석 기초 (0) | 2020.08.27 |
빅데이터의 이해 및 활용(빅데이터의 저장) (0) | 2019.06.09 |
빅데이터 이해 및 활용 정리 / 가설과 추론 전까지 (0) | 2019.06.06 |
빅데이터 분석 - 추천 시스템 (0) | 2019.05.20 |
20190520 빅데이터의 이해 및 활용 - 군집분석 (0) | 2019.05.20 |
최근댓글