ROC 곡선의 장점


15

ROC 곡선의 장점은 무엇입니까?

예를 들어 바이너리 분류 문제 인 일부 이미지를 분류하고 있습니다. 약 500 개의 기능을 추출하고 기능 선택 알고리즘을 적용하여 기능 세트를 선택한 다음 분류를 위해 SVM을 적용했습니다. 이 경우 어떻게 ROC 곡선을 얻을 수 있습니까? 기능 선택 알고리즘의 임계 값을 변경하고 ROC 곡선을 그리려면 출력의 감도와 특이성을 가져야합니까?

제 경우에는 ROC 곡선을 만드는 목적이 무엇입니까?


2
Tom Fawcett의 "ROC 분석 소개"를 통해 ROC 곡선을보다 잘 이해할 수있었습니다. 주제에 대한 추가 문헌을 찾고 있다면 그것을 즐길 수 있습니다.
Alexander

알았지 만 두 분류기를 비교하려면 어떻게 하시겠습니까? 그들이 니더 특이성과 감도가 매우 밀접하게 일치하도록 임계 값을 사용하면 ROC에 더 많은 포 텐트를 보지 않고 비교하기가 쉽지 않다고 생각합니다.
Michael R. Chernick

분류자를 개발하는 것은 거의 불가능하며 분류 오류는 부적절한 점수 규칙입니다. 실제 예측의 품질을 비교할 수있는 고출력 방법이 많이 있으며 ROC 곡선보다 직관적입니다. 예를 들어 this를 참조하십시오 .
Frank Harrell

답변:


13

많은 이진 분류 알고리즘은 일종의 분류 점수를 계산하며 (때로는 항상 목표 상태에있을 가능성은 아님) 점수가 특정 임계 값을 초과하는지 여부에 따라 분류됩니다. ROC 곡선을 보면 모델링 기술에서 선택한 것보다는 가능한 모든 임계 값에 대한 감도와 특이성 간의 상충 관계를 볼 수 있습니다. 다른 분류 목표는 곡선의 한 지점을 한 작업에 더 적합하고 다른 작업을 다른 작업에 더 적합하게 만들 수 있으므로 ROC 곡선을 보는 것은 임계 값 선택과 무관하게 모델을 평가하는 방법입니다.


답장을 보내 주셔서 감사합니다. 정말 유용합니다. ROC 곡선을 기준으로 임계 값을 결정할 방법이 있습니까? 내 경우에는 ROC 공간에서 감도 = 100 % 또는 특이성 = 100 %에 대한 점을 어떻게 얻을 수 있습니까? 기능 선택 알고리즘의 임계 값을 변경하고 있기 때문입니다.
user570593

1
ROC 곡선은 가능한 모든 임계 값에서 감도와 특이성을 보여 주므로 올바른 절충점을 나타내는 점을 찾으면 곡선에서 해당 점에 해당하는 임계 값을 선택할 수 있습니다.
Michael McGowan

올바른 트레이드 오프를 선택하는 자동 방법이 있습니까? 아니면 직접 트레이드 오프를 선택해야합니까? 내 경우에는 ROC 공간에서 감도 = 100 % 또는 특이성 = 100 %에 대한 점을 어떻게 얻을 수 있습니까? 기능 선택 알고리즘의 임계 값을 변경하고 있기 때문입니다.
user570593

2
잘 정의 된 기준이있는 경우 (예 : 정밀도 최대화)이를 자동화 할 수 있습니다. 그러나 한 문제에 대한 좋은 트레이드 오프는 다른 문제에 대해서는 형편 없다.
Michael McGowan

2
임계 값을 최소 또는 최대 값으로 설정하면 민감도 또는 특이도 100 %를 쉽게 얻을 수 있습니다. 이것이 실제로 원하는 것입니까?
Michael McGowan

11

지난 몇 년 동안 내가 본 사례의 99 %에서 ROC 곡선은 유익하지 않습니다. 그들은 많은 통계 학자와 더 많은 머신 러닝 전문가들에게 의무적 인 것으로 생각됩니다. 그리고 문제가 실제로 분류 문제이고 위험 평가 문제가 아닌지 확인하십시오. ROC 곡선 문제의 핵심은 사용자가 연속 변수에 컷 포인트를 사용하도록 초대하고 역 확률 즉, 시간 순서가 반대 인 이벤트의 확률 (감도 및 특이성)을 사용한다는 것입니다. ROC 곡선은 의사 결정 규칙 사용자가 손실 (비용; 유틸리티) 기능을 분석가에게 전가하는 매우 특별한 경우를 제외하고 최적의 절충점을 찾는 데 사용할 수 없습니다.


나는 Frank와 완전히 동의하지 않습니다. ROC의 AUC를 사용하는 것이 종종 문제라고 생각합니다. 그러나 질적으로 나는 알고리즘을 비교하는 것이 도움이 될 수 있다고 생각합니다. 단일 지점에서 특이성과 감도를 보는 것만으로는 유익하지 않습니다. 또한 OP가 99 % 비 유익한 경우 또는 유익한 1 %에 해당하는 이유를 OP가 실제로 알고 싶어하기 때문에 그의 대답이 실제로 문제를 해결하는지 확실하지 않습니다.
Michael R. Chernick

R2

R2

1
@FrankHarrell 그러나 두 알고리즘이 특이성과 감도에 매우 밀접하게 일치하지 않을 때 두 알고리즘을 어떻게 비교합니까?
Michael R. Chernick 1

7
R2χ2R2

1

ROC 곡선을 생성 한 후 AUC (곡선 아래 면적)를 계산할 수 있습니다. AUC는 여러 임계 값에 걸친 테스트의 정확성입니다. AUC = 1은 테스트가 완벽 함을 의미합니다. AUC = .5는 이진 분류에 대해 우연히 수행됨을 의미합니다.

여러 모델이있는 경우 AUC는 여러 모델을 비교하기 위해 단일 측정을 제공합니다. 모든 단일 측정 값과 항상 상충 관계가 있지만 AUC를 시작하는 것이 좋습니다.


1
YcDxy

0

AUC는 실제 클래스와 예측 클래스를 비교하지 않습니다. 예측 된 클래스가 아니라 예측 점수 또는 확률을보고 있습니다. 이 점수에 컷오프를 적용하여 클래스 예측을 수행 할 수 있습니다. 예를 들어 점수가 0.5 미만인 모든 샘플은 음수로 분류됩니다. 그러나 ROC는 그 전에 발생합니다. 점수 / 클래스 확률로 작업하고 있습니다.

이 점수를 받아 해당 점수에 따라 모든 샘플을 정렬합니다. 이제 양수 샘플을 찾을 때마다 ROC- 커브가 (y 축을 따라) 스텝 업합니다. 네거티브 샘플을 찾을 때마다 (x 축을 따라) 오른쪽으로 이동합니다. 그 점수가 두 클래스에서 다른 경우, 긍정적 인 샘플이 먼저옵니다 (보통). 즉, 오른쪽보다 더 많은 단계를 수행해야합니다. 목록 아래로 내려 가면 음성 샘플이 나오므로 왼쪽으로 이동하십시오. 전체 샘플 목록을 살펴보면 양수의 100 %와 음수 샘플의 100 %에 해당하는 좌표 (1,1)에 도달합니다.

점수가 음수 샘플에서 양수를 완벽하게 분리하면 (x = 0, y = 0)에서 (1,0)으로 이동 한 다음 거기에서 (1, 1)로 이동합니다. 따라서 곡선 아래 면적은 1입니다.

점수가 양성 및 음성 샘플에 대해 동일한 분포를 갖는 경우 정렬 된 목록에서 양성 또는 음성 샘플을 찾는 확률은 동일하므로 ROC 곡선에서 위로 또는 왼쪽으로 이동할 확률은 동일합니다. 그렇기 때문에 대각선을 따라 이동하는 이유는 기본적으로 상하 좌우로 움직이므로 AROC 값은 약 0.5입니다.

불균형 데이터 세트의 경우 단계 화가 다릅니다. 따라서 왼쪽에 더 작은 단계를 수행합니다 (음수가 더 많은 샘플이있는 경우). 그렇기 때문에 점수가 불균형과 무관합니다.

따라서 ROC 곡선을 사용하면 샘플이 분리되는 방식을 시각화 할 수 있으며 곡선 아래의 영역은 이진 분류 알고리즘의 성능 또는 클래스를 분리하는 데 사용할 수있는 변수를 측정하는 데 매우 유용한 지표가 될 수 있습니다.

여기에 이미지 설명을 입력하십시오

그림은 표본 크기가 다른 동일한 분포를 보여줍니다. 검은 색 영역은 양성 및 음성 샘플의 무작위 혼합물의 ROC 곡선이 예상되는 위치를 보여줍니다.


이 그래프는 통찰력을 제공하지 않으며 잉크 : 정보 비율이 IMHO로 매우 높습니다. 적절한 정확도 점수 스틱 : fharrell.com/post/class-damage fharrell.com/post/addvalue
프랭크 하렐

이 그래프에는 단일 1 차원 정확도 점수보다 더 많은 정보가 있습니다. 여러 분포에서 동일한 점수를 얻을 수 있습니다. 조기 인식이 있습니까? 다르게 행동하는 여러 종류의 양성 샘플이 있습니까? 결과가 통계적으로 유의합니까? 이러한 모든 질문은 해당 그래프를 보면 명확하게 답할 수 있으며 단일 정확도 점수로 해결하기가 불가능합니다.
Sören

소비자와 분석가는 예측 된 값을 보여주는 고해상도 히스토그램으로 중첩 된 보정 곡선을 표시하는 것만 큼 직관적 인 곡선에서 통찰력을 얻을 수 있다고 진지하게 질문합니다. ROC 곡선의 각 점은 부적절한 정확도 점수입니다.
Frank Harrell

초보자는 종종 이러한 곡선을 이해하는 데 어려움을 겪습니다. 따라서 귀하의 제품을 광고하기 위해 소비자에게 보여줄 것을 권장하지는 않습니다. 더 단순한 것이 필요하다고 생각합니다. 커브는 개별 포인트 이상입니다.
Sören
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.