반응형
기계학습

I 모델(model) : 다양한 변수 간의 수학적(혹은 확률적) 관계를 표현한 것

I 기계학습(machine learning) : 데이터를 통해 모델 (model)을 만들고 사용하는 것

I 예 :

I 이메일이 스팸 메일인지 아닌지 예측

I 신용카드 사기 예측

I 쇼핑 고객이 클릭할 확률이 높은 광고 예측

I 슈퍼볼에서 우승할 미식 축구팀 예측

 

 

I 지도 학습(supervised learning) : 학습에 사용될 데이터에 정답이 포함되어 있음

I 비지도 학습(unsupervised learning) : 정답이 포함되어 있음

I 준지도 학습(semi-supervised learning) : 데이터의 일부에만 정답이 포함되어 있음

I 온라인 학습(online learning) : 새로 들어오는 데이터를 통해 모델을 끊임없이 조정

 

 

오버피팅과 언더피팅(중요)

I 오버피팅(overfitting) : 만들어진 모델의 성능이 학습 데이터에서는 좋지만, 기존에 관측한 적이 없는 새로운 데이터에

                               서는 좋지 않는 경우

I 언더피팅(underfitting) : 모델의 성능이 학습 데이터에서도 좋지 않는 경우

 

 

Data Set

Training Set / Test Set 

Data Set은 Training Set : Test Set 은 7:3 or 8:2 비율로 나눔

모델이 복잡할수록 성능이 좋음

특정 구간을 기준으로 Error가 감소하다가 증가하는 기준이 있음

Training Set 과 Test set의 그래프 잘 보기

 

 

 

혼동행렬(confusion matrix)

I True Positive (TP; 진양성) : 실제로 스팸 메일이며 정확하게 스팸으로 분류

I False Positive (FP; 가양성) : 실제로 스팸 메일이 아니지만 스팸으로 분류

I False Negative (FN : 가음성) : 실제로 스팸 메일이지만 스팸이 아닌 것으로 분류

I True Negative (TN; 진음성) : 실제로 스팸 메일이 아니며 정확하게 스팸이 아닌 것으로 분류

 

성능평가

I 정확도(accuracy) : (TP + TN) / (TP + FP + TN + FN)

I 정밀도(precision) : TP / (TP + FP)

I 재현율(recall) : TP / (TP + FN) : 스팸 메일을 실제로 분류하는 비율

I F1점수 : 2 * P * R / (P + R)

 

 

예 - 백혈병(leukemia) 판독

I 1,000명의 신생아 중 5명에게 루크라는 이름을 지어준다.

I 1,000명 중 14명이 백혈병에 걸린다.

I 루크라는 이름을 가진 사람은 백혈병에 걸린다. -> 예측 모형

 

정확도 : 70 / 1,000,000

정밀도 : 70 / 5,000

재현율 :  70 / 14,000 

 

 

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기