불균형이 높은 데이터에 대한 분류 / 평가 지표


22

사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall또는 kappa둘 다 좋은 선택 인 것 같습니다.

이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 실제로 더 우수함을 보여주는 것입니다.

내가 아는 한 kappa, 무작위 기회 가 고려 되므로 여기에서 약간 더 나은 선택이 될 수 있습니다 . 에서 일반 영어 코헨의 카파 나는 그 이해 kappa정보 이득의 개념과 거래를 :

[...] 80 %의 관측 정확도는 50 %의 기대 정확도에 비해 75 %의 기대 정확도로 훨씬 덜 인상적입니다 ...]

따라서 내 질문은 다음과 같습니다.

  • kappa이 문제에 더 적합한 분류 지표 라고 가정 하는 것이 맞 습니까?
  • 단순히 사용 kappa하는 것이 분류 알고리즘에 대한 불균형의 부정적인 영향을 방지 합니까 ? 재 샘플링 또는 비용 기반 학습 ( http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf 참조 )이 여전히 필요합니까?

데이터 업 / 다운 샘플링은 학습 데이터의 데이터가 불균형 할 때 수행해야하는 작업이며 분류자가 소수 클래스를 무시하지 못하게 하는 데 도움이 될 수 있습니다 . 분류기를 평가할 때 재 샘플링 된 데이터를 사용하는 것은 부적절하고 사기성입니다. 원래 테스트 데이터에 동일하게 분포 된 샘플에 적용했을 때 분류 기가 가지고 있지 않은 성능을보고합니다.
user48956

답변:


10

네, 카파에 대한 당신의 가정은 옳은 것 같습니다. 단일 스칼라 메트릭으로서의 Kappa는 주로 정확도와 같은 다른 단일 스칼라 메트릭보다 유리하며, 이는 더 작은 클래스의 예측 성능을 반영하지 않습니다 (더 큰 클래스의 성능에 의해 가려 짐). Kappa는 지적 했듯이이 문제를보다 우아하게 해결합니다.

Kappa와 같은 메트릭을 사용하여 성능을 측정한다고해서 모델이 데이터에 어떻게 적합한 지 반드시 증가시킬 필요는 없습니다. 여러 메트릭을 사용하여 모든 모델의 성능을 측정 할 수 있지만 모델이 데이터를 맞추는 방법은 다른 매개 변수 (예 : 하이퍼 파라미터)를 사용하여 결정됩니다. 따라서 Kappa를 사용하여 매우 불균형 한 문제에 대한 여러 선택 중에서 가장 적합한 모델 유형과 하이퍼 파라미터를 선택할 수 있습니다. 그러나 Kappa 자체 만 계산해도 모델이 불균형 데이터에 맞는 방식은 변경되지 않습니다.

다른 측정 항목의 경우 : Kappa 및 정밀도 / 호출 외에 실제 양수 및 음수 속도 TPR / TNR, ROC 곡선 및 곡선 AUC 영역을 살펴보십시오. 어떤 것이 당신의 문제에 유용한지는 대부분 당신의 목표의 세부 사항에 달려 있습니다. 예를 들어, TPR / TNR 및 정밀도 / 리콜에 반영된 다양한 정보 : 실제로 사기가 많이 감지되고 합법적 인 거래가 많이 감지되어 공유가 최소화되는 것을 목표로합니다. 모든 경보에서 허위 경보 (자연스럽게 이러한 문제로 "대량"을 얻을 것임)

업 / 다운 샘플링 : "필요한 경우"에 대한 정식 답변이 없다고 생각합니다. 그것들은 당신의 문제를 조정하는 한 가지 방법입니다. 기술적으로 : 예, 사용할 수는 있지만 특히 업 샘플링 (주의를 기울이지 않고 비현실적인 샘플을 만들 수도 있음)에주의하여 사용하십시오. 두 클래스의 샘플 빈도를 "실제에서는 현실적이지 않은"것으로 변경하십시오. "는 예측 성능에도 부정적인 영향을 줄 수 있습니다. 최소한 최종 보류 테스트 세트는 샘플의 실제 주파수를 다시 반영해야합니다. 결론 : 업 샘플링 또는 다운 샘플링을 수행하거나 수행하지 않는 것이 더 나은 최종 결과를 얻는 두 가지 경우를 보았으므로 시도해야 할 수도 있습니다 (그러나 테스트 세트를 조작하지 마십시오!) .


그러나 전체 비즈니스 영향이 고려되므로 DOI 10.1109 / ICMLA.2014.48과 같은 비용 기반 접근 방식이 더 적합합니까?
Georg Heiler

15

다른 답변에서 이미 논의한 AUC와 Kohonen의 kappa 외에도 불균형 데이터에 유용한 몇 가지 메트릭을 추가하고 싶습니다. 그것들은 정밀도리콜 과 관련이 있습니다. 이를 평균화하면 측정 메트릭 과 두 가지 유형의 오류 ( 및 )를 얻을 수 있습니다.에프에프

  • F1 점수정확도리콜조화 평균 입니다 .
  • G-measure ( 정확도리콜기하 평균) 입니다 . F1과 비교할 때 불균형 데이터가 조금 더 좋습니다.
  • /(+에프+에프)

참고 : 불균형 데이터 세트의 경우 메트릭을 매크로 평균으로 만드는 것이 가장 좋습니다 .


1
G- 측정 및 Jaccard 지수를 언급 할 때 '더 나은'이란 무엇입니까?
Narfanar

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.