AUC를 사용하는 이유는 무엇입니까?


10

특히 머신 러닝 문헌의 컴퓨터 과학 지향 측면에서 AUC (수신자 운영자 특성 곡선 아래 영역)는 분류기를 평가하는 데 널리 사용되는 기준입니다. AUC 사용에 대한 정당성은 무엇입니까? 예를 들어 최적의 결정이 최고의 AUC를 가진 분류자인 특정 손실 함수가 있습니까?


1
AUC는 손실 함수이며,이 손실 함수에 대한 최적의 결정은 AUC가 가장 좋은 분류기임이 분명합니다.
로빈 지라드

1
@robingirard 아니요, 차별화 할 수 없기 때문에 직접 최적화 할 수 없습니다.
cpury

답변:


15

AUC가 측정되는 순위 지정에 사용되는 이진 분류기 (즉, 각 예 대해 우리는 간격 에서 를 가짐 에 대해 AUC는 확률과 같습니다. 여기서 은 진정한 긍정적 인 예이고 은 진정한 부정적인 예입니다. 따라서 최대 AUC가있는 모델을 선택하면 확률이 최소화 됩니다. 즉, 적어도 진정한 포지티브만큼 큰 진정한 네거티브 순위의 손실을 최소화합니다.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) C ( e 1 )CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)


0

좋은 + 나쁜 토마토의 풀에서 좋은 토마토를 식별하는 간단한 예를 들어 봅시다. 좋은 토마토의 수는 100이고 나쁜 토마토는 1000이므로 총 1100이라고 가정 해 봅시다. 이제 가능한 많은 토마토를 찾아야합니다. 모든 좋은 토마토를 얻는 한 가지 방법은 모든 1100 토마토를 섭취하는 것입니다. 그러나 그것은 당신이 b / n good과 bad를 구별 할 수 없다고 분명히 말합니다 .

따라서 올바른 차별화 방법은 무엇입니까- 나쁜 것들을 거의 가져 오지 않으면 서 많은 것을 얻을 필요가 있습니다 . 따라서 우리는 좋은 물건을 몇 개나 고르고 나쁜 것들이 무엇인지 말할 수있는 척도를 필요로합니다. 그것. AUC 측정 값은 아래 그림과 같이 불량품이 적은 좋은 제품을 더 많이 선택할 수 있으면 더 많은 무게를줍니다. 그것은 당신이 B / N을 얼마나 잘 구별 할 수 있는지를 나타냅니다.

이 예에서는 70 % 좋은 토마토를 집어 올리는 동안 검은 곡선이 나쁜 것 (불순물)의 약 48 %를 차지했지만 파란색 원은 83 % 나쁜 것 (불순물)을 가지고 있음을 알 수 있습니다. 따라서 검정 곡선은 파란색 곡선에 비해 AUC 점수가 더 좋습니다. 여기에 이미지 설명을 입력하십시오


이 질문에 어떻게 대답합니까?
Vivek Subramanian

나는 AUC의 직관으로 글을 썼는데, 그것은 오 탐지 수를 줄이면서 전체 인구에서 좋은 것 (이진 분류의 1)을 식별하는 데 단일 점수를주는 데 도움이됩니다. 내가 어떻게 더 잘할 수 있었는지 도와주세요.
yugandhar
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.