불균형 데이터 셋의 ROC vs 정밀 리콜 곡선


17

방금 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다.

예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 메트릭이 있습니다.

그런 다음 정밀도 = 0.9, 리콜 = 1.0입니다. 정밀도와 리콜은 모두 매우 높지만 분류 기가 불량합니다.

한편, TPR = TP / (TP + FN) = 1.0, FPR = FP / (FP + TN) = 1.0. FPR이 매우 높기 때문에 이것이 분류 기가 좋지 않다는 것을 알 수 있습니다.

분명히, 불균형 데이터 세트에서 ROC는 PR보다 낫습니다. PR이 더 좋은 이유를 누군가 설명 할 수 있습니까?


1
정밀도와 리콜은 모두 부정 부정을 무시합니다. PR 트레이드 오프 (곡선 또는 F- 점수)를 사용하는 일반적인 이유는 부정 및 부정 부정의 수가 TP 및 FP에 비해 크다는 것입니다. 따라서 TNR-> 1 및 FPR-> 0 (같은 | Negs | 분모를 가진 1로 합산). 따라서이 경우 PR은 TP 대 FP의 트레이드 오프를 반영 (증폭 또는 확대)하지만 의미 가 없으며 Youden J 지수 (Informedness = TPR-FPR = TPR + TNR-1)의 증가와 관련이 있습니다. = Sensitivity + Specificity-1) : 삼각형 단일 작동 점 곡선과 ROC 기회 선 사이의 두 배 영역에 해당합니다.
David MW Powers,

2
@DavidMWPowers, 공식 답변으로 바꾸지 않겠습니까? 그것은 나에게 매우 유익한 반응처럼 보입니다.
gung-복원 Monica Monica

2

답변:


8

우선, Kaggle 포스트에 대한 주장은 허위입니다. 그들이 " 정밀 리콜과 ROC 곡선의 관계 "라고 언급 한 논문 은 PR AUC가 ROC AUC보다 낫다고 주장하지 않습니다 . 그들은 단순히 가치를 판단하지 않고 속성을 비교합니다.

일부 매우 불균형 한 응용 프로그램에서는 ROC 곡선이 잘못 될 수 있습니다. ROC 곡선은 소수 클래스의 대부분 또는 전부를 잘못 분류하면서 여전히 꽤 좋아 보일 수 있습니다 (즉, 임의보다 낫습니다).

대조적으로, PR 곡선은 드문 이벤트 탐지를 위해 특별히 조정되었으며 이러한 시나리오에서 매우 유용합니다. 그들은 소수 또는 대부분의 소수 클래스를 잘못 분류하는 경우 분류 기가 성능이 낮음을 보여줍니다. 그러나 그들은 더 균형 잡힌 경우 또는 부정적인 경우가 드문 경우로 잘 변환되지 않습니다.

또한 긍정적 인 사건의 기준 확률에 민감하기 때문에 잘 일반화되지 않으며 구축 된 특정 데이터 집합 또는 정확히 동일한 균형을 가진 데이터 집합에만 적용됩니다. 이것은 일반적으로 다른 연구의 PR 곡선을 비교하는 것이 어렵고 그 유용성을 제한한다는 것을 의미합니다.

항상 그렇듯이 사용 가능한 도구를 이해하고 올바른 응용 분야에 적합한 도구를 선택하는 것이 중요합니다. 여기 CV에서 ROC vs 정밀도 및 회수 곡선 이라는 질문을 읽는 것이 좋습니다 .


3

귀하의 예는 확실히 맞습니다.

그러나 Kaggle 경쟁 / 실제 응용 프로그램의 맥락에서 비뚤어진 데이터 세트는 일반적으로 음성 샘플보다 양수가 적은 데이터 세트를 의미합니다. 이 경우에만 PR AUC는 ROC AUC보다 "의미"가 있습니다.

TP = 9, FN = 1, TN = 900, FP = 90 인 검출기를 생각해보십시오. 여기에는 10 개의 양성 및 990 개의 음성 샘플이 있습니다. 좋은 ROC 점수를 나타내는 TPR = 0.9, FPR = 0.1, 그러나 나쁜 PR 점수를 나타내는 Precision = 0.1.


0

당신은 반쯤 있습니다.

일반적으로 불균형 모델, 심지어 균형 잡힌 모델을 할 때 모든 수업에 대한 PR을 봅니다.

귀하의 예에서, 긍정 클래스는 P = 0.9이고 R = 1.0입니다. 그러나 당신이 봐야 할 것은 모든 수업입니다. 따라서 네거티브 클래스의 경우 P = 0 및 R = 0입니다. 일반적으로 PR 점수 만 개별적으로 보지는 않습니다. 클래스 1과 클래스 0에 대한 PR 점수의 조화 평균 인 F1- 점수 (문제에 따라 F1 매크로 또는 F1 마이크로)를보고자합니다. 클래스 1 PR 점수는 매우 우수하지만 당신의 클래스 0 PR 점수, 당신의 F1- 점수는 끔찍할 것입니다, 이것은 당신의 시나리오에 대한 올바른 결론입니다.

TL, DR : 모든 클래스의 PR 점수를보고 F1- 점수와 같은 메트릭과 결합하여 모델 성능에 대한 현실적인 결론을 얻습니다. 시나리오의 F1 점수는 끔찍할 것입니다. 이는 시나리오의 올바른 결론입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.