분류기에 대한 최적의 임계 값을 결정하고 ROC 곡선을 생성하는 방법은 무엇입니까?


답변:


14

SVM 분류기를 사용하여 주석이 달린 예제 세트를 분류하고 예제의 하나의 예측을 기반으로 ROC 공간에서 "1 포인트"를 식별 할 수 있습니다. 예의 수가 200이라고 가정하고, 먼저 네 경우의 예 수를 세십시오.

labeledtruelabeledfalsepredictedtrue7128predictedfalse5744


그런 다음 TPR (True Positive Rate) 및 FPR (False Positive Rate)을 계산하십시오. ROC 공간에서 x 축은 FPR이고 y 축은 TPR입니다. , F P R = 28 / ( 28 + 44 ) = 0.3889 따라서 포인트 ( 0.3889 , 0.5547 ) 가 얻어진다. ROC 곡선을 그리려면 (1) true 또는 false로 레이블 된 예제 수를 제어하는 ​​일부 임계 값을 조정하십시오.TPR=71/(71+57)=0.5547FPR=28/(28+44)=0.3889(0.3889,0.5547)



예를 들어, α % 이상의 특정 단백질 농도가 질병을 나타내는 경우, 다른 α 값은 다른 최종 TPR 및 FPR 값을 산출합니다. 임계 값은 그리드 검색과 유사한 방식으로 간단하게 결정될 수 있습니다. 임계 값이 다른 라벨 훈련 예, 레이블이 지정된 여러 세트의 분류기를 훈련시키고, 테스트 데이터에서 분류기를 실행하고, FPR 값을 계산하고, 낮음 (0에 가까운) 및 높음 (1에 가까운) FPR을 포함하는 임계 값을 선택합니다. 값, 즉 0, 0.05, 0.1, ..., 0.95, 1에 가까움

(2) 많은 주석이 달린 예제 세트를 생성합니다.
(3) 예제 세트 에서 분류기를 실행합니다.
(4) (FPR, TPR) 포인트 계산 각각에 대해
(5) 최종 ROC 곡선을 그립니다.

일부 세부 사항은 http://en.wikipedia.org/wiki/Receiver_operating_characteristic 에서 확인할 수 있습니다 .

또한이 두 링크는 ​​최적의 임계 값을 결정하는 방법에 유용합니다. 간단한 방법은 최대 양수와 음수 비율을 합한 것입니다. 다른보다 정밀한 기준에는 재무 비용 등과 같은 다른 임계 값과 관련된 다른 변수가 포함될 수 있습니다.
http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-characteristic.html


5
설명해 주셔서 감사합니다. 최적의 임계 값은 어떻습니까?
RockTheStar

1
죄송합니다. 최적의 임계 값이 바로 전의 특수 용어라는 것을 알게되었습니다. 검색 한 후 Google 도서의 "SAS를 사용하여 수신기 작동 특성 곡선 분석"장의 "3.5 최적 임계 값 선택"장에 최적 임계 값 선택에 대한 자세한 설명이 있음을 발견했습니다. 이에 대해 널리 사용되는 두 가지 방법은 결과 이진 예측 (1)을 가능한 한 완벽한 예측 변수에 가깝게 만드는 임계 값을 선택하는 것입니다. (2) 정보가없는 예측 자로부터 가능한 한 멀리 떨어져 있음
Tom

멋지다, 어디에서 참조를 찾을 수 있습니까? 감사!
RockTheStar

2
그렇습니다. "비 정보 예측 자와 멀다"는 것은 무엇을 의미합니까? 참조를 추가하십시오.
Simone

1
또한 최적의 임계 값을 결정하기위한 많은 기준이 있음을 읽었습니다. 예를 들어, 간단한 기준은 모든 임계 값 중에서 최대 양의 참-긍정 및 거짓 음의 값을 가진 값을 선택한다는 것입니다. 더 복잡한 다른 기준도 있습니다.
Tom

3

임계 값을 선택하는 정말 쉬운 방법은 테스트 세트에 대해 긍정적 인 사례의 중앙값을 예측하는 것입니다. 이것은 당신의 임계 값이됩니다.

임계 값은 실제 양의 비율 (tpr)과 1-위양성 비율 (fpr)이 겹치는 roc 곡선을 사용하여 얻을 수있는 임계 값과 비교적 비슷합니다. 이 tpr (크로스) 1-fpr 크로스는 오 탐지를 최소화하면서 진정한 포지티브를 최대화합니다.


내가 참조. 중앙값 예측값. 제안 해 주셔서 감사합니다.
RockTheStar

2
이 방법에 대한 소스가 있습니까?
JEquihua

1
이것은 ROC 곡선에서 TPR = 0.5 인 점을 선택하는 것과 같습니다.
Bananin

평균 예측값? 클래스 불균형이 1000 : 1이면 어떻게됩니까?
ldmtwo

3

ROC 공간의 왼쪽 상단에서 가장 가까운 지점을 선택하십시오. 이제이 지점을 생성하는 데 사용 된 임계 값이 최적의 값이어야합니다.


2
이 작업을 자동으로 수행하는 방법은 무엇입니까?
ldmtwo

1

임계 값의 선택은 TPR 및 FPR 분류 문제의 중요성에 따라 다릅니다. 예를 들어, 분류자가 어떤 형사 용의자가 사형 선고를 받을지 결정할 경우, 오탐은 매우 나쁩니다 (무고한 사람은 사망합니다!). 따라서 합리적인 TPR을 유지하면서 FPR이 낮은 임계 값을 선택할 수 있습니다 (따라서 실제로 일부 범죄자를 잡을 수 있습니다). 낮은 TPR 또는 높은 FPR에 대한 외부 우려가없는 경우 한 가지 옵션은 최대화하는 임계 값을 선택하여 동일한 가중치를 부여하는 것입니다아르 자형에프아르 자형.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.