기계학습
I 모델(model) : 다양한 변수 간의 수학적(혹은 확률적) 관계를 표현한 것
I 기계학습(machine learning) : 데이터를 통해 모델 (model)을 만들고 사용하는 것
I 예 :
I 이메일이 스팸 메일인지 아닌지 예측
I 신용카드 사기 예측
I 쇼핑 고객이 클릭할 확률이 높은 광고 예측
I 슈퍼볼에서 우승할 미식 축구팀 예측
I 지도 학습(supervised learning) : 학습에 사용될 데이터에 정답이 포함되어 있음
I 비지도 학습(unsupervised learning) : 정답이 포함되어 있음
I 준지도 학습(semi-supervised learning) : 데이터의 일부에만 정답이 포함되어 있음
I 온라인 학습(online learning) : 새로 들어오는 데이터를 통해 모델을 끊임없이 조정
오버피팅과 언더피팅(중요)
I 오버피팅(overfitting) : 만들어진 모델의 성능이 학습 데이터에서는 좋지만, 기존에 관측한 적이 없는 새로운 데이터에
서는 좋지 않는 경우
I 언더피팅(underfitting) : 모델의 성능이 학습 데이터에서도 좋지 않는 경우
Data Set
Training Set / Test Set
Data Set은 Training Set : Test Set 은 7:3 or 8:2 비율로 나눔
모델이 복잡할수록 성능이 좋음
특정 구간을 기준으로 Error가 감소하다가 증가하는 기준이 있음
Training Set 과 Test set의 그래프 잘 보기
혼동행렬(confusion matrix)
I True Positive (TP; 진양성) : 실제로 스팸 메일이며 정확하게 스팸으로 분류
I False Positive (FP; 가양성) : 실제로 스팸 메일이 아니지만 스팸으로 분류
I False Negative (FN : 가음성) : 실제로 스팸 메일이지만 스팸이 아닌 것으로 분류
I True Negative (TN; 진음성) : 실제로 스팸 메일이 아니며 정확하게 스팸이 아닌 것으로 분류
성능평가
I 정확도(accuracy) : (TP + TN) / (TP + FP + TN + FN)
I 정밀도(precision) : TP / (TP + FP)
I 재현율(recall) : TP / (TP + FN) : 스팸 메일을 실제로 분류하는 비율
I F1점수 : 2 * P * R / (P + R)
예 - 백혈병(leukemia) 판독
I 1,000명의 신생아 중 5명에게 루크라는 이름을 지어준다.
I 1,000명 중 14명이 백혈병에 걸린다.
I 루크라는 이름을 가진 사람은 백혈병에 걸린다. -> 예측 모형
정확도 : 70 / 1,000,000
정밀도 : 70 / 5,000
재현율 : 70 / 14,000
'빅데이터 분석 > 빅데이터 분석 학습' 카테고리의 다른 글
빅데이터의 이해 및 활용(빅데이터의 저장) (0) | 2019.06.09 |
---|---|
빅데이터 이해 및 활용 정리 / 가설과 추론 전까지 (0) | 2019.06.06 |
빅데이터 분석 - 추천 시스템 (0) | 2019.05.20 |
20190520 빅데이터의 이해 및 활용 - 군집분석 (0) | 2019.05.20 |
20190513 빅데이터 이해 및 활용 - (2) (0) | 2019.05.13 |
20190408 빅데이터 분석 이해 - 통계 기초 (0) | 2019.04.08 |
빅데이터 이해 및 활용 20190401 (0) | 2019.04.01 |
BEPS R을 이용한 빅데이터 분석 (0) | 2019.03.05 |
최근댓글