KS, AUROC 및 Gini의 관계


11

Kolmogorov–Smirnov 검정 (KS), AUROCGini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini = 2AUROC-1을 알고 있지만 가장 좋은 증거는 그래프를 가리키는 것입니다. 공식적인 증거에 관심이 있습니다. 어떤 도움이라도 대단히 감사하겠습니다!


1
KS는 Kolmogorov-Smirnov 통계를 의미합니까? AUROC는 아마도 ROC 곡선 아래의 영역일까요?
Nitesh

Wikipedia에서 시작하여 원래 참조를 진행하는 것이 시작하기에 좋은 장소입니다.
LauriK

답변:


1

수신기 작동 특성에 대한 Wikipedia 항목 은 Gini = 2AUROC-1 결과에 대해이 백서를 참조합니다. Hand, David J .; 및 Till, Robert J. (2001); 다중 클래스 분류 문제에 대한 ROC 곡선 아래 영역의 간단한 일반화, Machine Learning, 45, 171–186. 그러나 나는 그것이 당신이 원하는 것에 얼마나 가까운 지 알기 쉽게 접근 할 수 없다는 것을 두려워합니다.


1
... Gini는 일반적으로 두 가지 범주 레이블이있는 데이터에 적용되는 반면 AUROC는 숫자 순위 데이터 + 이진 레이블에 적용되므로 쓸모없는 결과 일 수 있습니다. 그들은 일치 단지 당신의 순위가 진 경우? 이 경우 자유도가 2 도인 3 점 곡선이기 때문에 AUROC를 전혀 사용하지 않는 것이 좋습니다 ... (요즘 Wikipedia에서는 너무 많은 종이 스팸을 확인하지 않았습니다.)
종료-익명-무스

0

받는 따르면 용지 (Adeodato, PJ L 및 멜로 2016 SB)는 KS의 곡선 ROC 곡선 아래 (AUKS) 및 면적 (AUROC) 아래의 영역 사이에 선형 관계가있다, 즉 :

아르 자형영형=0.5+케이에스

동등성 증명이 종이에 포함되어 있습니다.


0

결과 Gini = 2 * AUROC-1은 반드시 사실이 아니기 때문에 증명하기 어렵습니다. 수신기 작동 특성 곡선 의 Wikipedia 기사 는 Gini의 정의로 결과를 제공하며 Hand and Till (nealmcb가 인용 한) 기사는 ROC 곡선을 사용한 Gini의 그래픽 정의가이 공식으로 이어진다 고 말합니다.

여기서 Gini에 대한 이러한 정의는 기계 학습 및 엔지니어링 커뮤니티에서 사용되지만 경제학자와 인구 학자는 다른 정의를 사용합니다 (Gini의 원래 논문으로 되돌아 감). 지니 계수 에 관한 Wikipedia 기사 는 Lorenz 곡선을 기반으로이 정의를 제시합니다.

Schechtman & Schechtman (2016)논문 은 AUC와 원래 Gini 정의의 관계를 설명합니다. 그러나 그것들이 정확히 같을 수 없다는 것을 알기 위해 사건의 비율이 p 이고 완벽한 분류자가 있다고 가정하십시오 . 그런 다음 ROC 곡선은 왼쪽 상단을 통과하고 AUCROC는 1입니다. 그러나 (flipped) Lorenz 곡선은 (0,0)에서 ( p , 1)에서 (1,1)까지 진행되며 경제학자의 Gini는 1입니다. - P 거의하지만 정확히 1 / 2.

이벤트가 드물다면 Gini의 원래 정의를 사용하여 Gini = 2 * AUROC-1 관계가 거의 일치하지는 않습니다. Gini를 다시 정의하여 관계를 유지하는 경우에만 관계가 사실입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.