이진 분류를위한 손실 함수 선택


18

사람들이 종종 ROC-AUC 또는 AveP (평균 정밀도)를 보고하는 문제 영역에서 일 합니다. 그러나 최근에 Log Loss 를 최적화하는 논문을 찾았 지만 다른 사람들은 Hinge Loss를 보고했습니다 .

이러한 측정 항목이 계산되는 방식을 이해하고 있지만, 이러한 측정 항목 간의 균형을 이해하는 데 어려움을 겪고 있습니다.

ROC-AUC vs Precision-Recall과 관련 하여이 스레드ROC-AUC 최대화 가 어떻게 "최소한 실제 음수만큼 진 음수 순위를 매기는 것" (높은 것으로 가정)을 훼손하는 손실 최적화 기준을 사용하는 것으로 볼 수 있는지에 대해 설명합니다. 점수는 긍정에 해당합니다). 또한 이 다른 스레드Precision-Recall 메트릭 과 달리 ROC-AUC 에 대한 유용한 설명을 제공합니다 .

그러나 ROC-AUC , AveP 또는 Hinge 손실 보다 어떤 유형의 문제에 대해 로그 손실 이 선호 됩니까? 가장 중요한 것은 이진 분류를 위해 이러한 손실 함수 중에서 선택할 때 문제에 대해 어떤 유형의 질문을 해야 하는가?

답변:


8

이 문제에 대한 최신 참고 자료는 [1]입니다. 기본적으로, 지정한 모든 손실 함수가 빠른 속도로 Bayes 분류기로 수렴됨을 보여줍니다.

유한 샘플에 대해 이들 중 하나를 선택하는 것은 몇 가지 다른 주장에 의해 추진 될 수 있습니다.

  1. 이벤트 확률 (분류뿐만 아니라)을 복구하려는 경우 로지스틱 로그 손실 또는 기타 일반화 된 선형 모델 (Probit 회귀, 상보 로그 로그 회귀 등)이 자연 후보입니다.
  2. 분류만을 목표로하는 경우 SVM은 분류에 대한 관측만을 목표로하고 먼 관측을 무시하므로 가정 된 선형 모형의 진실성에 대한 영향을 완화하므로 선호되는 선택 일 수 있습니다.
  3. 관측치가 많지 않으면 2의 장점이 단점 일 수 있습니다.
  4. 명시된 최적화 문제와 사용중인 특정 구현 모두에서 계산상의 차이가있을 수 있습니다.
  5. 결론-당신은 단순히 그들 모두를 시도하고 최고의 공연을 선택할 수 있습니다.

[1] Bartlett, Peter L, Michael I Jordan 및 Jon D McAuliffe. “볼록, 분류 및 위험 경계.”Journal of the American Statistical Association 101, no. 473 (2006 년 3 월) : 138–56. doi : 10.1198 / 016214505000000907.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.