드문 이벤트 로지스틱 회귀 분석에 대한 컷오프 확률을 선택하는 방법


11

1000 개의 양성으로 100,000 개의 관측치 (9 개의 더미 표시기 변수)가 있습니다. 이 경우에는 로지스틱 회귀가 잘 작동하지만 컷오프 확률은 당황합니다.

일반적인 문헌에서는 1과 0을 예측하기 위해 50 % 컷오프를 선택합니다. 내 모델의 최대 값이 ~ 1 %이므로이 작업을 수행 할 수 없습니다. 따라서 임계 값은 0.007 또는 그 주위에있을 수 있습니다.

ROC곡선과 곡선 아래 면적이 동일한 데이터 세트에 대해 두 LR 모델 중에서 선택하는 데 어떻게 도움이되는지 이해 합니다. 그러나 ROC는 샘플 외부 데이터에서 모델을 테스트하는 데 사용할 수있는 최적 컷오프 확률을 선택하는 데 도움이되지 않습니다.

간단하게 차단 값을 최소화해야 misclassification rate합니까? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

추가-> 이벤트 율이 낮은 경우 오 분류 율은 많은 오탐의 영향을받습니다. 전체 유니버스 크기가 클수록 전체 비율이 양호 해 보이지만 내 모델에는 투자 수익 모델이므로 오 탐지 수가 너무 많지 않아야합니다. 5/10 coeff가 중요합니다.


3
컷오프를 결정해야하는 확률과 함께 두 종류의 오 분류에 대한 상대 비용 입니다. 확률 모델의 유효성을 검사하려는 경우 테스트 세트에 적용될 때 AUC 또는 Brier 점수를 계산하십시오.
Scortchi-Monica Monica 복원

:이 좋은 해답이 될 수 stats.stackexchange.com/a/25398/5597
태 성 신


@ Tae-SungShin 링크 감사합니다. 도움이됩니다. Q에 대한 명확한 답이없는 것 같습니다. 내 모델에는 많은 오 탐지가 있습니다.
Maddy

@Scortchi 감사합니다. AUC를 사용하면 두 가지 다른 로지스틱 회귀 모델 (추가 예측 변수 포함)을 비교할 때 유용했을 수 있지만 내 경우에 어떻게 도움이되는지 확실하지 않습니다. 그것은 모델의 총 성공 확률을 제공하지만 컷오프 확률을 선택하는 데 도움이되지 않습니다.
Maddy

답변:


5

50 % 컷오프가 본질적으로 유효하거나 문헌에 의해 뒷받침되는 것에 동의하지 않습니다. 이러한 차단이 정당화 될 수있는 유일한 경우는 결과의 유병률이 정확히 50 % 인 사례 제어 설계이지만, 선택의 경우 몇 가지 조건이 적용됩니다. 컷오프 선택의 주요 근거는 진단 테스트의 원하는 작동 특성이라고 생각합니다.

원하는 감도 또는 특이성을 달성하기 위해 차단이 선택 될 수있다. 이에 대한 예는 의료 기기 문헌을 참조하십시오. 감도는 종종 고정 된 양으로 설정됩니다 (예 : 80 %, 90 %, 95 %, 99 %, 99.9 % 또는 99.99 % 포함). 민감도 / 특이성 트레이드 오프는 유형 I 및 유형 II 오류의 피해와 비교되어야합니다. 종종 통계 테스트와 마찬가지로 유형 I 오류의 피해가 더 커지므로 해당 위험을 제어합니다. 그럼에도 불구하고 이러한 피해는 거의 계량화 할 수 없습니다. 그로 인해 예측 정확도의 단일 측정에 의존하는 컷오프 선택 방법에 대한 주요 반대 의견이 있습니다.

너무 많은 오 탐지 문제는 그 반대의 예입니다. 유형 II 오류가 더 해로울 수 있습니다. 그런 다음 원하는 특이성을 달성하기 위해 임계 값을 설정하고 해당 임계 값에서 달성 된 감도를보고 할 수 있습니다.

둘 다 실습하기에 너무 낮 으면 위험 모델이 작동하지 않아 거부해야합니다.

가능한 모든 컷오프 값 범위에 대해 테이블에서 민감도와 특이도를 쉽게 계산하거나 조회 할 수 있습니다. ROC의 문제점은 그래픽에서 특정 컷오프 정보를 생략한다는 것입니다. 따라서 ROC는 컷오프 값을 선택하는 데 적합하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.