AUC는 각 클래스에서 무작위로 선택된 인스턴스를 올바르게 분류 할 가능성이 있습니까?


11

나는이 자막을 종이로 읽었고 AUC가 다른 곳에서는 이런 식으로 묘사 된 것을 본 적이 없다. 이것이 사실입니까? 이것을 볼 수있는 증거 또는 간단한 방법이 있습니까?

그림 2는 수신기 작동 특성 곡선 (AUC) 아래 영역으로 표현 된 이분법 변수의 예측 정확도를 보여줍니다. 이는 각 등급에서 무작위로 선택된 두 명의 사용자 (예 : 남성과 여성)를 정확하게 분류 할 확률과 같습니다. ).

AUC = 0.5 인 경우 위의 내용은 동전 플립을 연속으로 두 번 올바르게 예측 할 확률이 50 %임을 제안하지만 실제로는 25 %의 확률 만 있음을 알 수 있습니다. 연속으로 두 개의 동전 뒤집기를 정확하게 예측합니다. 적어도 이것이 내가이 진술을 생각하는 방식입니다.


1
나는 제목에 표현 된 개념이 어쨌든 옳지 않다는 것을 고맙지 만 인용문과 일치시키기 위해 단지 "분류 할 확률"보다는 "정확하게 분류 할 확률"이라고 말해서는 안 되는가? 처음 읽을 때 혼란 스러웠습니다.
Silverfish

1
이미 충분히 긴 타이틀이었습니다! 나는 실제로 "올바르게"추가하는 것을 고려했다. :)
thecity2

답변:


14

인용이 약간 잘못되었습니다. 올바른 말은 ROC AUC는 무작위로 선택된 긍정적 인 예가 무작위로 선택된 부정적인 예보다 더 높은 순위 일 확률이라는 것입니다. 이것은 ROC AUC와 Wilcoxon 순위 시험 간의 관계 때문입니다.

Tom Fawcett " ROC 분석에 대한 소개 "에서 토론을 찾을 수 있습니다.


8

저자의 설명이 완전히 정확하지는 않습니다. ROC 곡선 아래의 면적은 실제로 무작위로 선택된 양성 사례가 무작위로 선택된 음성 사례보다 위험 점수가 높을 확률과 동일합니다. 이것은 반드시 분류와 관련이있는 것은 아니며, 점수 분포 사이의 분리 척도 일뿐입니다.

동전 예를 들어, 동전 두 개가 있고 각각 동전과 관련된 점수가 있다고 가정하십시오. 그런 다음 동전 하나가 머리와 다른 꼬리가 나올 때까지 두 동전을 뒤집습니다. 이는 랜덤 스코어링을 수행하는 모델을 보유하는 것과 동일하며 헤드가 나온 코인이 더 높은 (또는 더 낮은) 점수를 가질 확률은 1/2입니다.


2

나는 그 말을 싫어하지만 당신이 읽은 설명은 정확합니다. ROC (AUC) 곡선 아래의 영역은 임의의 개인 쌍을 클래스 2에서 클래스 1로 올바르게 분류 할 확률입니다. 이는 순위 기반 통계이므로 한 쌍의 개인이 상위 등급보다 높은지 여부를 추측해야하는 경우 다른 하나는 무작위로 추측하면 50 %의 확률입니다. AUC는 Wilcoxon 부호있는 순위 검정 통계량과 동일하며 [1] 이는 의미를 설명하는 데 사용될 수 있습니다.

[1] : Mason & Graham (2002). 상대 운영 특성 (ROC) 및 상대 운영 수준 (ROL) 곡선 아래 영역 : 통계적 중요성 및 해석. 왕 기상 학회의 분기 별 저널. 128 : 2145-2166.


1

다른 사람들이 지적했듯이, AUC는 양성 클래스에서 무작위로 선택된 예가 분류 자로부터 음성 클래스에서 무작위로 선택된 예보다 높은 점수를받을 확률을 표현합니다.

이 특성의 증거는 AUC에 대한 수학 공식을 도출하는 방법을 참조하십시오.

또는 그 답변에 사용 된 출처 : D. Hand, 2009, 분류기 성능 측정 : ROC 곡선 아래 영역에 대한 일관된 대안

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.