AUC 대 표준 정확도의 장점


64

곡선 아래 면적 (AUC)을 조사하기 시작했으며 그 유용성에 대해 약간 혼란스러워했습니다. 처음 나에게 설명했을 때 AUC는 성능의 척도 인 것처럼 보였지만 내 연구에서 높은 표준 정확도 측정과 낮은 AUC로 '운이 좋은'모델을 잡는 데 가장 유리하다는 점에서 장점이 거의 없다고 주장했습니다. .

모델 검증에 AUC에 의존하지 않아야합니까 아니면 조합이 가장 좋을까요? 모든 도움을 주셔서 감사합니다.


5
불균형 문제를 고려하십시오. 커브가 클래스 크기의 균형을 맞추기 때문에 ROC AUC가 매우 인기가 있습니다. 99 %의 객체가 같은 클래스에있는 데이터 세트에서 99 %의 정확도를 쉽게 달성 할 수 있습니다.
Anony-Mousse

3
"AUC의 암시 적 목표는 매우 치우친 표본 분포가 있고 단일 클래스에 지나치게 적합하지 않은 상황을 처리하는 것입니다." 나는 이러한 상황들이 AUC가 제대로 수행하지 못하고 그 아래에 정밀 리콜 그래프 / 영역이 사용되었다고 생각했습니다.
JenSCDC

@JenSCDC, 이러한 상황에서의 경험에서 AUC는 잘 수행되며 아래 설명과 같이 해당 영역을 얻는 것은 ROC 곡선입니다. PR 그래프도 유용합니다 (리콜은 ROC의 축 중 하나 인 TPR과 동일하지만 정밀도는 FPR과 동일하지 않으므로 PR 플롯은 ROC와 관련되어 있지만 동일하지는 않습니다. 출처 : stats.stackexchange.com/questions/132777/…stats.stackexchange.com/questions/7207/…
alexey

답변:


59

정말 좋은 질문이며, 대부분의 사람들이 직관적 인 수준에서 이해하지 못한다는 것을 알게되었습니다. AUC실제로 여러 가지 이유로 이진 분류의 정확도보다 선호되는 경우가 많습니다. 먼저, 정확히 무엇에 대해 이야기합시다 AUC. 솔직히 가장 널리 사용되는 효능 측정법 중 하나이기 때문에 정확히 어떻게 AUC작동 하는지 알아내는 것은 놀랍습니다 .

AUC의미 Area Under the Curve당신이 요청하는 곡선? 음, 이것이 ROC곡선 일 것입니다. ROC의 약자 수신기 작동 특성 실제로 약간의 비 직관적이다. 암시 적 목표는 AUC매우 치우친 표본 분포가 있고 단일 클래스에 과도하게 적합하지 않은 상황을 처리하는 것입니다.

좋은 예는 스팸 탐지입니다. 일반적으로 스팸 데이터 세트는 스팸 또는 스팸 아님에 대해 매우 치우칩니다. 데이터 세트가 90 % 햄이라면 모든 단일 이메일이 햄이라고 말하면 좋은 정확도를 얻을 수 있습니다. 우리에게 좀 더 유용한 몇 가지 메트릭, 특히 실제 양수 비율 ( TPR)과 위양성 비율 ( )로 시작해 보겠습니다 FPR.

ROC 축

이제이 그래프에서, TPR구체적으로 모든 양성에 대한 진 양성의 비율이며, FPR모든 음성에 대한 거짓 양성의 비율입니다. (이것은 이진 분류만을위한 것임을 명심하십시오.) 이와 같은 그래프에서, 모든 0 또는 1의 예측이 각각 (0,0)및 의 포인트를 초래할 것이라는 것을 이해하는 것이 매우 간단해야합니다 (1,1). 이 선을 통해 선을 그리면 다음과 같은 결과가 나타납니다.

삼각형과 같은 종류

어느 쪽이 기본적으로 대각선처럼 보이는데, 쉬운 지오메트리로 보면 AUC그러한 모델이 0.5(높이와 밑면이 모두 1 인) 것을 알 수 있습니다. 마찬가지로 0과 1의 임의 구색을 예측하는 경우 90 % 1이라고 가정하면 점을 얻을 수 (0.9, 0.9)있습니다.이 대각선을 따라 다시 떨어집니다.

이제 흥미로운 부분이 온다. 우리가 0과 1 만 예측하지 않았다면 어떨까요? 대신 이론적으로 모든 결과가 1이고 모든 결과가 0 인 컷오프를 설정하려고한다면 어떻게해야합니까? 모두 0과 1 (각각 0과 1의 컷오프)과을 포함하는 1x1그래프에 속하는 일련의 중간 상태를 갖습니다 ROC. 실제로 다음과 같은 것을 얻습니다. 위키 백과의 의례

따라서 기본적으로 AUC지나치게 정확도를 높일 때 실제로 얻는 것은 대표적이지만 차별적이지 않은 모델을 사용하는 사람들을 강하게 방해하는 것입니다. 정확도가 보장되지 않는 임의 확률보다 훨씬 높습니다.


AUC와 F1- 점수를 비교하는 방법을 추가 할 수 있습니까?
Dan

7
@ Dan- 가장 큰 차이점은 AUC를 통해 결정 임계 값을 설정할 필요가 없다는 것입니다 (스팸이 스팸 이외의 순위보다 높을 가능성을 측정하는 것입니다). F1- 점수에는 결정 임계 값이 필요합니다. 물론 결정 임계 값을 항상 운영 매개 변수로 설정하고 F1 점수를 표시 할 수 있습니다.
DSea

17

AUC와 정확도는 상당히 다릅니다. AUC는 내부적으로 의사 결정 임계 값 개념이있는 이진 분류기에 적용됩니다. 예를 들어 로지스틱 회귀는 로지스틱 함수가 임계 값보다 큰지 작은 지 (일반적으로 기본적으로 0.5) 여부에 따라 양 / 음을 반환합니다. 임계 값을 선택하면 분류 기가 있습니다. 하나를 선택해야합니다.

주어진 임계 값을 선택하면 전체 데이터 세트에서 실제 양수와 음수의 비율 인 정확도를 계산할 수 있습니다.

AUC는 진정한 양의 비율 (리콜)과 위양성 비율의 트레이드 오프를 측정하므로 이미 다른 것을 측정하고 있습니다. 더 중요한 것은 AUC는 임계 값의 기능이 아닙니다. 임계 값은 가능한 모든 값에 따라 다르므로 분류기의 평가입니다. 어떤 의미에서는 분류자가 생성 한 다음 임계 값과 비교하는 내부 값의 품질을 테스트하는 더 넓은 메트릭입니다. 특정 임계 값 선택의 품질을 테스트하지 않습니다.

AUC는 다른 해석을 가지고 있으며, 이는 예를 들어 분류기의 내부 값에 따라 무작위로 선택된 긍정적 인 예가 무작위로 선택된 부정적인 예보다 순위가 높아질 확률이기도합니다.

예제에 대해서만 순위를 생성하는 알고리즘이 있더라도 AUC는 계산 가능합니다. 내부 임계 값이없는 블랙 박스 분류 기가 있으면 AUC를 계산할 수 없습니다. 이것들은 보통 두 가지 중 어느 것이 현재 문제에 이용 가능한지를 지시합니다.

AUC는 더 적은 수의 상황에 적용 할 수는 있지만보다 포괄적 인 척도라고 생각합니다. 정확도보다 엄격하게 좋지는 않습니다. 그것은 다르다. 그것은 당신이 참 긍정, 거짓 부정 등에 대해 더 관심이 있는지에 달려 있습니다.

F- 측정은 분류기 및 임계 값 설정의 기능이라는 점에서 정확도와 비슷합니다. 그러나 정밀도와 회수율 (진정 율)을 측정하는데 이는 위와 동일하지 않습니다.


따라서 그룹 크기가 동일한 일련의 관측치 (즉, 사례 제어 연구)에 대해 이진 결과를 예측하려면 정확도보다 AUC를 사용하여 어떤 결과를 얻습니까? 아니면 컨벤션으로 인해 그러한 연구에서 AUC가 일반적으로 사용됩니까?

AUC는 분류자가 음수 인스턴스보다 양수 인스턴스의 순위를 얼마나 잘 측정하는지, 정확도는 주어진 결정 임계 값에 대해 진 음수 대 오 탐지를 측정합니다. 나는 그것이 당신이 평가하고자하는 것과 일치하는 것에 달려 있다고 생각합니다. AUC는 아마도 임계 값의 선택과 무관하게 분류기의보다 포괄적 인 척도이지만, 분류기를 실제로 사용하려면 분류하기 위해 임계 값을 선택해야합니다.
Sean Owen

4

성능 측정을 어떻게 선택해야하는지 언급하고 싶습니다. 그 전에 정확성과 AUC에 대한 구체적인 질문을하겠습니다.

이전에 대답했듯이, 대다수 실행을 분류 자로 사용하는 불균형 데이터 세트에서 오해의 소지가있는 정확도가 높아질 것입니다. AUC는 신뢰도 임계 값을 초과하여 집계됩니다. 좋은 결과를 얻으려면 모든 신뢰 수준에 대한 가중치 결과를 얻습니다. 나쁜 점은 일반적으로 실제로 사용할 신뢰 수준에만 관심이 있고 나머지는 관련이 없다는 것입니다.

그러나 모델에 적합한 성능 측정을 선택하는 것에 대해 언급하고 싶습니다. 모델을 목표별로 비교해야합니다. 모델의 목표는 기계 학습이나 통계 문제가 아니라 비즈니스 영역과 그 요구에 관한 문제입니다.

당신이 금을 파고 있다면 (진짜 긍정적 인 것으로부터 큰 이익을 얻는 시나리오 인 거짓 긍정적 인 것), 리콜은 좋은 척도입니다.

사람들에 대해 복잡한 의료 절차를 수행할지 여부를 결정하려는 경우 (높은 비용의 오 탐지, 희망적으로 낮은 비용의 오 탐률) 정밀도를 사용해야합니다.

사용할 수있는 방법이 많이 있습니다. 다양한 방법으로 결합 할 수도 있습니다.

그러나 보편적 인 "최상의"척도는 없습니다. 귀하의 요구에 가장 적합한 모델이 있으며,이를 최대화하면 혜택을 극대화 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.