위의 답변은 모두 좋습니다.
에스케이 E w = N 전자 gt의 난의 브이 Ee x a m p l e sP는 O S I T I의 브이 Ee x a m p l e s
불균형 데이터로 AUC는 여전히 0.8 정도의 가치를 제공합니다. 그러나 TP (True Positive)가 아니라 FP가 많기 때문에이 값이 높습니다.
아래 예와 같이
TP=155, FN=182
FP=84049, TN=34088
따라서 AUC를 사용하여 분류기의 성능을 측정 할 때 문제는 AUC의 증가가 실제로 더 나은 분류기를 반영하지 않는다는 것입니다. 너무 많은 부정적인 예의 부작용 일뿐입니다. 당신은 단순히 당신에게 데이터 셋을 시도 할 수 있습니다.
성능 지표 사용에 대한 불균형 데이터 권장 사항 페이퍼 백서에 따르면 "ROC는 기울어 짐에 영향을받지 않지만 정밀 리콜 곡선은 ROC가 일부 경우 성능 저하를 가리킬 수 있음을 시사합니다." 좋은 성능 지표를 찾는 것은 여전히 미심쩍은 질문입니다. 일반적인 F1- 점수는 도울 수 있습니다
에프β= ( 1 + β2) ⋅ p r e c i s i o n ⋅ r e c a l l( β2⋅ p r e c i s i o n ) + r e c a l l
β
그런 다음 불균형 데이터에 대한 나의 제안은 이 게시물 과 비슷합니다 . 또한 "2 가지 분류 및 10 가지 테이블"을 검색하여 구성 할 수있는 10 가지 테이블을 시도 할 수 있습니다. 한편, 나는이 문제에 대해서도 연구하고 있으며 더 나은 척도를 줄 것입니다.