사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall
또는 kappa
둘 다 좋은 선택 인 것 같습니다.
이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 실제로 더 우수함을 보여주는 것입니다.
내가 아는 한 kappa
, 무작위 기회 가 고려 되므로 여기에서 약간 더 나은 선택이 될 수 있습니다 . 에서 일반 영어 코헨의 카파 나는 그 이해 kappa
정보 이득의 개념과 거래를 :
[...] 80 %의 관측 정확도는 50 %의 기대 정확도에 비해 75 %의 기대 정확도로 훨씬 덜 인상적입니다 ...]
따라서 내 질문은 다음과 같습니다.
kappa
이 문제에 더 적합한 분류 지표 라고 가정 하는 것이 맞 습니까?- 단순히 사용
kappa
하는 것이 분류 알고리즘에 대한 불균형의 부정적인 영향을 방지 합니까 ? 재 샘플링 또는 비용 기반 학습 ( http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf 참조 )이 여전히 필요합니까?