불균형 데이터의 경우 ROC 곡선 아래 영역 또는 PR 곡선 아래 영역?


16

사용할 성능 측정, ROC 곡선 아래 영역 (FPR의 함수로서 TPR) 또는 정밀 회수 곡선 아래 영역 (리콜 함수로서의 정밀도)에 대해 의문이 있습니다.

내 데이터가 불균형합니다. 즉, 부정적인 인스턴스의 수가 긍정적 인 인스턴스보다 훨씬 많습니다.

weka의 출력 예측을 사용하고 있으며 샘플은 다음과 같습니다.

inst#,actual,predicted,prediction
1,2:0,2:0,0.873
2,2:0,2:0,0.972
3,2:0,2:0,0.97
4,2:0,2:0,0.97
5,2:0,2:0,0.97
6,2:0,2:0,0.896
7,2:0,2:0,0.973

그리고 pROC 및 ROCR r 라이브러리를 사용하고 있습니다.


이러한 곡선으로 달성하고자하는 것을 언급하는 것을 잊었습니다.
Marc Claesen

1
참고 : ROC 곡선 (전체 작동 범위에서 FPR의 함수로서의 TPR)과 PR 곡선 (전체 작동 범위에서 정밀도 대 리콜) 중에서 선택하려고합니다. " 정확도와 리콜의 AUC-ROC "와 같은 용어 는 매우 오해의 소지가 있으므로이를 편집했습니다. 내가 잘못 이해하면 되돌려주십시오.
Marc Claesen

답변:


27

문제는 매우 모호하므로 다른 모델을 비교하기 위해 적절한 성능 측정을 선택한다고 가정합니다. ROC와 PR 곡선의 주요 차이점에 대한 자세한 개요는 Davis와 Goadrich의 정밀 리콜과 ROC 곡선의 관계를 참조하십시오 .

Davis와 Goadrich를 인용하려면 :

그러나 고도로 치우친 데이터 집합을 처리 할 때 PR (Precision-Recall) 곡선은 알고리즘 성능에 대한보다 유익한 그림을 제공합니다.

ROC 곡선은 FPR 대 TPR을 표시합니다. 더 명확하게 : PR 곡선은 정밀도 대 리콜 (FPR) 또는보다 명확하게 플롯합니다 : recall=TP

에프아르 자형=에프에프+,아르 자형=+에프.
아르 자형이자형=+에프=아르 자형,아르 자형이자형나는에스나는영형=+에프

이후 정밀 직접 클래스 (IM)의 균형에 의해 좌우된다 영향 TPR에만 탐지에 의존하는 반면,. 이것이 ROC 곡선이 그러한 효과를 포착하지 못하는 이유입니다.에프

고도의 불균형 데이터 세트에 대한 모델 간의 차이점을 강조 표시하려면 정밀 리콜 곡선이 더 좋습니다. 불균형 설정에서 다른 모델을 비교하려면 PR 곡선 아래 영역이 ROC 곡선 아래 영역보다 더 큰 차이를 보일 수 있습니다.

즉, ROC 곡선은 훨씬 덜 일반적입니다 (적합하지 않더라도). 잠재 고객에 따라 ROC 곡선이 링구아 프랑카 일 수 있으므로이를 사용하는 것이 더 안전한 선택 일 수 있습니다. PR 공간에서 한 모델이 다른 모델을 완전히 지배하는 경우 (예 : 항상 전체 리콜 범위에서 정밀도가 높음) ROC 공간에서도 지배적입니다. 곡선이 한 공간에서 교차하면 다른 공간에서도 교차합니다. 즉, 어떤 곡선을 사용하든 주요 결론은 비슷합니다.


뻔뻔한 광고 . 추가적인 예로, ROC와 PR 곡선을 불균형 설정으로보고하는 논문 중 하나를 살펴볼 수 있습니다 . 그림 3에는 동일한 모델에 대한 ROC 및 PR 곡선이 포함되어 있으며 두 모델의 차이점을 명확하게 보여줍니다. PR의 면적과 ROC의 면적을 비교하기 위해 AUPR 이 AUROC보다 개별 모델 간의 차이가 훨씬 큰 것을 확인할 수있는 표 1-2 (AUPR)와 표 3-4 (AUROC)를 비교할 수 있습니다 . 이것은 PR 곡선의 적합성을 다시 한 번 강조합니다.


설명 주셔서 감사합니다. 문제는 왜 PR 곡선이 불균형 데이터에 더 유익한가? 나에게 ROC는 TPR과 FPR을 모두 고려하기 때문에 더 유익해야합니다.
MM


1
@MA는 명확하게 답변을 편집했습니다.
Marc Claesen

1
TPR과 FPR의 리콜 방정식에 혼합이 있다고 생각합니다.
Simon Thordal

당신이 옳습니다. 리콜 = ... = TPR, FPR이 아닙니다. @Marc Claesen, 나는 당신이 그것을 시도 할 때, "편집은 적어도 6 문자를 가져야한다"는 정보를 얻었 기 때문에이 변경과 같은 작은 오타를 수정할 수 없기 때문에 당신 만 변경할 수 있다고 생각합니다.
ponadto

6

ROC 곡선은 y 축에 TPR을, x 축에 FPR을 플로팅하지만 묘사하려는 대상에 따라 다릅니다. 연구 분야에서 다르게 표시해야 할 이유가없는 한, TPR / FPR ROC 곡선은 운영 상충 관계를 보여주는 표준이며 가장 잘 받아 들여질 것입니다.

정밀성과 리콜만으로는 진정한 부정을 설명하지 않기 때문에 오해의 소지가 있습니다.


0

ROC와 PR AUC의 가장 큰 차이점은 ROC가 모델이 긍정적 인 클래스와 부정적인 클래스를 얼마나 잘 "계산"할 수 있는지를 결정한다는 사실을 생각합니다. 따라서 균형 잡힌 수업 상황과 부정적인 수업과 긍정적 인 수업 모두에 관심이있는 경우 ROC AUC 지표가 효과적입니다. 상황이 불균형 한 경우 PR AUC를 사용하는 것이 바람직하지만 모델이 긍정적 인 클래스를 얼마나 잘 계산할 수 있는지 결정하는 것만 명심하십시오!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.