답변:
먼저 ROC 곡선 아래 영역을 공식적으로 정의 해 봅시다. 몇 가지 가정과 정의 :
우리는 "점수"s (x)를 출력하는 확률 론적 분류기를가집니다. 여기서 x는 특징이며, s는 추정 확률 p (class = 1 | x)의 일반적인 증가하는 단조 함수입니다.
, : = CDF 사용한 k 클래스 점수의 pdf
점수 s 를 임계 값 t 와 비교하여 새로운 관측치의 분류가 얻어진다.
또한 수학적 편의를 위해 양의 클래스 (이벤트 감지) k = 0 및 음의 k = 1을 고려해 보겠습니다.이 설정에서 다음을 정의 할 수 있습니다.
ROC 곡선은 에 대한 의 플롯입니다 . 설정 하면 ROC 곡선 아래의 영역을 공식적으로 다음과 같이 정의 할 수 있습니다. 변수 변경 ( ) :
이 공식은 클래스 0의 임의로 추첨 된 멤버가 클래스 1의 무작위로 추첨 된 멤버의 점수보다 낮은 점수를 생성 할 확률 인 것으로 쉽게 알 수 있습니다.
이 증명은 https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf 에서 가져 왔습니다.
AUC-ROC를 계산하는 방법은 TPR과 FPR을 임계 값으로 플로팅하고 를 변경 한 후 해당 곡선 아래 면적을 계산하는 것입니다. 그러나 왜 곡선 아래의이 영역이이 확률과 같은가? 다음을 가정 해 봅시다.
TPR (호출)은 로, FPR (fallout)은 됩니다.
이제 y 축에 TPR을, x 축에 FPR을 플로팅하고 다양한 대한 곡선을 그리고이 곡선 아래 면적 ( )을 계산합니다 .
우리는 얻는다 :
이제 는 일뿐입니다.
그러나 역변환 법칙에 따르면 임의의 변수 에 대해 이면 라는 것을 알고 있습니다 . 이것은 임의의 변수를 취하고 자체 CDF를 적용하여 유니폼을 만들기 때문에 발생합니다.
식 (2)에서이 사실을 사용하면 다음과 같이됩니다 :
이것을 방정식 (1)로 대체하면 다음과 같은 결과를 얻습니다.
다시 말해서, 곡선 아래의 영역은 랜덤 포지티브 샘플이 랜덤 네거티브 샘플보다 점수가 높을 확률입니다.