정밀 회수 곡선에 적합한 AUC는 무엇입니까?


11

매우 불균형 한 데이터 집합 (9 % 긍정적 결과)이 있기 때문에 ROC 곡선보다 정밀 회수 곡선이 더 적합하다고 결정했습니다. PR 곡선 아래에서 면적의 비슷한 요약 측정 값을 얻었지만 (관심이 있다면 .49) 해석 방법을 잘 모르겠습니다. 0.8 이상이 ROC에 대한 좋은 AUC라고 들었습니다.하지만 정밀 리콜 곡선에 대한 AUC의 일반 컷오프는 동일합니까?

답변:


12

AUC-ROC 또는 AUC-PR에 대한 매직 컷오프없습니다 . 높을수록 분명히 낫지 만 전적으로 응용 프로그램에 따라 다릅니다.

예를 들어 0.8의 AUC로 수익성있는 투자를 성공적으로 식별 할 수 있거나 우연과 구별 할 수있는 문제에 대해 매우 감명을 받고 부자가 될 것입니다. 다른 한편으로, 0.95의 AUC로 필기 자릿수를 분류하는 것은 여전히 ​​현재의 기술 상태보다 실질적으로 낮다.

더욱이, 가능한 가장 좋은 AUC-ROC는 [0,1]에있을 것이지만, 등급 분포가 어떻게 치우쳐 졌는지에 따라 PR 공간의 "도달 할 수없는"영역이있을 수 있기 때문에 정밀 리콜 곡선에는 해당되지 않습니다. 자세한 내용은 Boyd et al (2012) 의이 문서를 참조하십시오 .


AUC에서도 도달 할 수없는 부분이 있다고 생각했습니다. 그러나 틀릴 수 있습니다.
찰스

4
내가 연결 한 논문은 "두 가지 유형의 곡선 사이의 관련성이 있지만 이전에는 인식되지 않았지만, ROC 공간의 어떤 지점도 달성 할 수 있지만 PR 공간의 모든 지점을 달성 할 수는 없다"고 말한다. P / R을 위해 컬렉션에있는 모든 문서의 순위를 지정해야하므로 가장 비관적 인 시스템이라도 결국 관련 항목을 검색하기 때문입니다. 그러나 ROC의 경우 모든 긍정적 인 예를 "-"및 모든 부정적인 예를 "+"라고 부를 수 있습니다. 그러면 100 % 오 탐지 / 100 % 오 음률이됩니다.
매트 크라우스

감사! 나는 논평하기 전에 종이를 보았어야했다.
찰스

매직 넘버가 없다는 데 동의합니다. 그러나 예를 들어 0.95 AUC-ROC는 본질적으로 문제를 해결했으며 매우 우수한 분류 기가 있다는 것을 이해하는 데 가치가 있습니다. 수익성있는 투자를 찾기위한 AUC 0.6은 엄밀히 말하면 무작위보다 우수하지만 그다지 좋지는 않습니다. 그것은 당신이 언급했듯이, 그것은 여전히 ​​우연과 구별 될 수 있으며, 당신에게 좋은 전략을 산출 할 수 있습니다.
shiri

0

.49는 크지 않지만 해석은 ROC AUC와 다릅니다. ROC AUC의 경우 로지스틱 회귀 모델을 사용하여 .49를 얻은 경우 무작위보다 나쁘지 않습니다. .49 PR AUC의 경우에는 그렇게 나쁘지 않을 수 있습니다. 나는 개인의 정확성을 고려하고, 아마도 하나 또는 다른 것이 PR AUC를 추진하고있는 것을 생각 나게 할 것입니다. 리콜 (Recall)은 9 %의 긍정적 인 클래스 중 실제로 얼마나 정확한지 추측하고 있습니다. 정밀함은 당신이 생각하지 않은 긍정적 인 것의 수를 알려줄 것입니다. (가짜 긍정적). 50 %의 리콜은 나쁘다는 것을 의미하며, 많은 불균형 수업을 추측하지는 않지만 50 %의 정확도는 나쁘지 않을 것입니다. 상황에 따라 다릅니다.


0

랜덤 추정기는 귀하의 경우 PR-AUC가 0.09 (9 % 긍정적 인 결과)를 가지므로 0.49는 확실히 크게 증가합니다.

이것이 좋은 결과라면 다른 알고리즘과 비교해서 만 평가할 수 있었지만 사용한 방법 / 데이터에 대해서는 자세하게 설명하지 않았습니다.

또한 PR 곡선의 모양을 평가할 수도 있습니다. 이상적인 PR- 곡선은 왼쪽 위 모서리에서 오른쪽 위 모서리로, 오른쪽 아래 모서리까지 똑바로 내려 오면서 PR-AUC가 1이됩니다. "임의 추정기 선"(여기서 0.09 정밀도의 수평선)에 다시 떨어 뜨립니다. 이는 "강력한"긍정적 인 결과를 잘 감지하지만 덜 명확한 후보에 대해서는 성능이 저하되었음을 나타냅니다.

알고리즘의 컷오프 매개 변수에 대한 적절한 임계 값을 찾으려면 오른쪽 상단 모서리에 가장 가까운 PR 커브 지점을 고려할 수 있습니다. 또는 가능하면 교차 검증을 고려하십시오. PR-AUC의 값보다 애플리케이션에 더 흥미로운 특정 컷오프 매개 변수의 정밀도 및 리콜 값을 얻을 수 있습니다. AUC는 다른 알고리즘을 비교할 때 가장 흥미 롭습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.