1000 개의 양성으로 100,000 개의 관측치 (9 개의 더미 표시기 변수)가 있습니다. 이 경우에는 로지스틱 회귀가 잘 작동하지만 컷오프 확률은 당황합니다.
일반적인 문헌에서는 1과 0을 예측하기 위해 50 % 컷오프를 선택합니다. 내 모델의 최대 값이 ~ 1 %이므로이 작업을 수행 할 수 없습니다. 따라서 임계 값은 0.007 또는 그 주위에있을 수 있습니다.
ROC
곡선과 곡선 아래 면적이 동일한 데이터 세트에 대해 두 LR 모델 중에서 선택하는 데 어떻게 도움이되는지 이해 합니다. 그러나 ROC는 샘플 외부 데이터에서 모델을 테스트하는 데 사용할 수있는 최적 컷오프 확률을 선택하는 데 도움이되지 않습니다.
간단하게 차단 값을 최소화해야 misclassification rate
합니까? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
추가-> 이벤트 율이 낮은 경우 오 분류 율은 많은 오탐의 영향을받습니다. 전체 유니버스 크기가 클수록 전체 비율이 양호 해 보이지만 내 모델에는 투자 수익 모델이므로 오 탐지 수가 너무 많지 않아야합니다. 5/10 coeff가 중요합니다.