반응형
목표: 주어진 문제에 모델이 적합한지 정량화한 지표로 성능 측정
1) 이진분류
오차/혼돈행렬(Confusion Metrices): 지도 학습으로 훈련된 분류 알고리즘의 성능을 평가하는 표
- 행: 예측 된 클래스의 인스턴스
- 열: 실제 클래스의 인스턴스
- True Positive,TP 진짜 양성 :양성을 정확하게 예측된 관측값 갯수
- True Negative,TN 진짜 음성: 음성임을 정확하게 예측된 관측값 갯수
- False Positive, FP 거짓 양성: 양성임을 틀렸을 때의 갯수
- False Negative, FN 거짓 음성:음성임을 틀렸을 때의 갯수
- Relevant samples : Positive = TP +FP, Negative = TN + FN
- 정확도(ACC): 전체 중 옳은 예측의 한 합의 비율
- 예측오차(ERR): 전체 중 틀리게 예측한 합의 비율
- 재현율(recall)/민감도(sensitivity)
- 진짜 양성 비율(True Positive Rate, TPR) : 옳게 예측한 관측값 중에서 진짜 양성 비율
- : ) > 0.5 이상
- Specificity (특이도)
- 진짜 거짓 비율(True negative Rate,TNR): 틀리다고 예측한 클래스 중에서 실제와 예측이 동일한 클래스
- 정밀도(Precision):
- 거짓 양성 비율(False Positive Rate, FPR): 맞다고 예측한 클래스 중에서 실제와 예측이 동일한 클래스
- F1-점수(F1 Score) : 테스트의 정확도로 정밀도와 재현율의 조화평균(harmonic mean, (2*a*b)/(a+b)을 구함(평균적 변화율 구함)
- (0,1) 1 에 가까울수록 좋음
ROC(Receiver Operating Characteristics) 그래프
- 분류의 임계 값을 바꾸어 가며 계산된FPR(Precision) , TPR(Soecificity) 점수를 기반으로 분류 모델을 선택하는 유용한 도구
- Random classifier : 대각선 TPR = FPR
- 오른쪽 아래는 랜덤 추측보다 나쁜 경우
- Perfect Classifier : TPR=1, FPR= 0 (가까울수록 BETTER!)
- ROC 커브의 아래 면적 , ROC AUC(ROC Area Uner the Curve) : 분류 모델의 성능을 조합
2) 다중 분류(multi-class classification)
Macro average of Precision 평균 방식: k개 클래스별 정밀도(Precision)의 평균( 동일한 가중치)
- 모든 클래스에 동일한 가중치 부여하여 분류기 전반적인 성능 평가
- 최빈도 클래스 레이블의 성능 중요
- 샘플 개수가 다른 불균형한 클래스 유용
Micro average of Precision 평균 방식: k개의 클래스 별로 TP,TN, FP, FN 계산 ( 빈도에 의한 상이한 가중치)
- 각 샘플, 예측에 동일한 가중치 부여
Reference
반응형
'Data > ML' 카테고리의 다른 글
[Python] 파이썬 시작하기(파이썬, 아나콘다,주피터 노트북 다운로드 설치, 실행) (0) | 2021.08.27 |
---|---|
Anaconda 설치, 업데이트, 가상환경 (0) | 2021.07.07 |
10.회귀 분석(Regression Analysis) (0) | 2021.06.23 |
8. 감정분석 (0) | 2021.06.15 |
7. 앙상블 학습 (Ensemble Learning) (0) | 2021.06.14 |