특히 머신 러닝 문헌의 컴퓨터 과학 지향 측면에서 AUC (수신자 운영자 특성 곡선 아래 영역)는 분류기를 평가하는 데 널리 사용되는 기준입니다. AUC 사용에 대한 정당성은 무엇입니까? 예를 들어 최적의 결정이 최고의 AUC를 가진 분류자인 특정 손실 함수가 있습니까?
특히 머신 러닝 문헌의 컴퓨터 과학 지향 측면에서 AUC (수신자 운영자 특성 곡선 아래 영역)는 분류기를 평가하는 데 널리 사용되는 기준입니다. AUC 사용에 대한 정당성은 무엇입니까? 예를 들어 최적의 결정이 최고의 AUC를 가진 분류자인 특정 손실 함수가 있습니까?
답변:
좋은 + 나쁜 토마토의 풀에서 좋은 토마토를 식별하는 간단한 예를 들어 봅시다. 좋은 토마토의 수는 100이고 나쁜 토마토는 1000이므로 총 1100이라고 가정 해 봅시다. 이제 가능한 많은 토마토를 찾아야합니다. 모든 좋은 토마토를 얻는 한 가지 방법은 모든 1100 토마토를 섭취하는 것입니다. 그러나 그것은 당신이 b / n good과 bad를 구별 할 수 없다고 분명히 말합니다 .
따라서 올바른 차별화 방법은 무엇입니까- 나쁜 것들을 거의 가져 오지 않으면 서 많은 것을 얻을 필요가 있습니다 . 따라서 우리는 좋은 물건을 몇 개나 고르고 나쁜 것들이 무엇인지 말할 수있는 척도를 필요로합니다. 그것. AUC 측정 값은 아래 그림과 같이 불량품이 적은 좋은 제품을 더 많이 선택할 수 있으면 더 많은 무게를줍니다. 그것은 당신이 B / N을 얼마나 잘 구별 할 수 있는지를 나타냅니다.
이 예에서는 70 % 좋은 토마토를 집어 올리는 동안 검은 곡선이 나쁜 것 (불순물)의 약 48 %를 차지했지만 파란색 원은 83 % 나쁜 것 (불순물)을 가지고 있음을 알 수 있습니다. 따라서 검정 곡선은 파란색 곡선에 비해 AUC 점수가 더 좋습니다.