불균형 데이터 세트에 대한 ROC 곡선


10

입력 행렬 와 이진 출력 고려하십시오 .y엑스와이

분류기의 성능을 측정하는 일반적인 방법은 ROC 곡선을 사용하는 것입니다.

ROC 플롯에서 대각선은 랜덤 분류기에서 얻은 결과입니다. 불균형 출력 의 경우, 확률이 다른 또는 을 선택하여 랜덤 분류기의 성능을 향상시킬 수 있습니다 .0 1와이01

이러한 분류기의 성능을 ROC 곡선 플롯으로 어떻게 표현할 수 있습니까? 더 이상 대각선이 아닌 다른 각도의 직선이어야한다고 가정합니까?

ROC 곡선 예


2
대신 정밀 리콜 곡선을 시도 할 수 있습니다, "라고 정밀 리콜 플롯은 불균형 데이터 집합에 이진 분류기를 평가 중화 민국의 플롯보다 유익" ncbi.nlm.nih.gov/pmc/articles/PMC4349800는 , 가능성이 더 논문의 저자 인 classeval.wordpress.com/simulation-analysis/…에
zyxue

답변:


16

ROC 곡선은 클래스 균형에 영향을받지 않습니다. 랜덤 분류기에 대해 얻은 직선은 이미 양의 결과를 얻는 다른 확률을 사용한 결과입니다 (0은 (0, 0)에 도달하고 1은 (1, 1)에 범위가 있음).

불균형 설정에서 아무것도 변경되지 않습니다.


1
왜 대각선이 변하지 않는지보기 위해 곡선 아래 영역의 의미를 고려하는 것이 도움이된다는 것을 알게되었습니다. AUC는 무작위로 선택된 긍정적 인 예가 무작위로 선택된 부정적인 예보다 높은 점수를 가질 확률로 해석 될 수 있습니다. 1 . 이것은 왜 클래스 불균형이 문제가되지 않는지를 명확하게 해줍니다.
JBecker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.