SVM 분류 기가 있다고 가정 해 봅시다. ROC 곡선은 어떻게 생성합니까? (이론적으로) (각 임계 값으로 TPR 및 FPR을 생성하기 때문에). 이 SVM 분류기에 대한 최적의 임계 값을 어떻게 결정합니까?
SVM 분류 기가 있다고 가정 해 봅시다. ROC 곡선은 어떻게 생성합니까? (이론적으로) (각 임계 값으로 TPR 및 FPR을 생성하기 때문에). 이 SVM 분류기에 대한 최적의 임계 값을 어떻게 결정합니까?
답변:
SVM 분류기를 사용하여 주석이 달린 예제 세트를 분류하고 예제의 하나의 예측을 기반으로 ROC 공간에서 "1 포인트"를 식별 할 수 있습니다. 예의 수가 200이라고 가정하고, 먼저 네 경우의 예 수를 세십시오.
그런 다음 TPR (True Positive Rate) 및 FPR (False Positive Rate)을 계산하십시오. ROC 공간에서 x 축은 FPR이고 y 축은 TPR입니다. , F P R = 28 / ( 28 + 44 ) = 0.3889 따라서 포인트 ( 0.3889 , 0.5547 ) 가 얻어진다.
ROC 곡선을 그리려면
(1) true 또는 false로 레이블 된 예제 수를 제어하는 일부 임계 값을 조정하십시오.
예를 들어, α % 이상의 특정 단백질 농도가 질병을 나타내는 경우, 다른 α 값은 다른 최종 TPR 및 FPR 값을 산출합니다. 임계 값은 그리드 검색과 유사한 방식으로 간단하게 결정될 수 있습니다. 임계 값이 다른 라벨 훈련 예, 레이블이 지정된 여러 세트의 분류기를 훈련시키고, 테스트 데이터에서 분류기를 실행하고, FPR 값을 계산하고, 낮음 (0에 가까운) 및 높음 (1에 가까운) FPR을 포함하는 임계 값을 선택합니다. 값, 즉 0, 0.05, 0.1, ..., 0.95, 1에 가까움
(2) 많은 주석이 달린 예제 세트를 생성합니다.
(3) 예제 세트 에서 분류기를 실행합니다.
(4) (FPR, TPR) 포인트 계산 각각에 대해
(5) 최종 ROC 곡선을 그립니다.
일부 세부 사항은 http://en.wikipedia.org/wiki/Receiver_operating_characteristic 에서 확인할 수 있습니다 .
또한이 두 링크는 최적의 임계 값을 결정하는 방법에 유용합니다. 간단한 방법은 최대 양수와 음수 비율을 합한 것입니다. 다른보다 정밀한 기준에는 재무 비용 등과 같은 다른 임계 값과 관련된 다른 변수가 포함될 수 있습니다.
http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-characteristic.html
임계 값을 선택하는 정말 쉬운 방법은 테스트 세트에 대해 긍정적 인 사례의 중앙값을 예측하는 것입니다. 이것은 당신의 임계 값이됩니다.
임계 값은 실제 양의 비율 (tpr)과 1-위양성 비율 (fpr)이 겹치는 roc 곡선을 사용하여 얻을 수있는 임계 값과 비교적 비슷합니다. 이 tpr (크로스) 1-fpr 크로스는 오 탐지를 최소화하면서 진정한 포지티브를 최대화합니다.