확률 모델을 교정하는 동안 최적의 빈 너비를 선택하는 방법은 무엇입니까?


12

배경 : 결과 발생 가능성을 예측하는 모델을 교정하는 방법에 대한 몇 가지 훌륭한 질문 / 답변이 있습니다. 예를 들어

  1. 브리 어 점수결의, 불확실성 및 신뢰성 으로의 분해 .
  2. 교정 플롯 및 등장 회귀 .

이러한 방법은 종종 예측 된 확률에 비닝 방법을 사용해야하므로 결과의 동작 (0, 1)이 평균 결과를 취하여 빈에 대해 평활화됩니다.

문제 : 그러나 빈 너비를 선택하는 방법을 알려주는 항목을 찾을 수 없습니다.

질문 : 최적의 용지함 너비를 어떻게 선택합니까?

시도 : 사용중인 두 개의 일반적인 빈 너비는 다음과 같습니다.

  1. 동일한 폭 비닝, 예를 들어 간격 [0, 1]의 10 %를 각각 덮는 10 개의 빈.
  2. Tukey의 비닝 방법은 여기에서 설명 합니다 .

그러나 가장 잘못 교정 된 예측 확률의 구간을 찾는 데 관심이있는 경우 이러한 빈 선택이 가장 최적입니까?


1
"1"결과가 드문 경우 같은 수의 샘플 대신 같은 수의 "1"을 가진 빈으로 나누는 것이 좋습니다. 이는 교정 후 모델의 차별 (AUC)을 유지하는 데 도움이됩니다.
ihadanny

답변:


4

비닝을 사용하는 모든 통계적 방법은 결국 폐기 된 것으로 간주되었습니다. 지속적인 교정 곡선 추정은 1990 년대 중반 이후 일반화되었습니다. 일반적으로 사용되는 방법은 황토 (이상치 감지가 해제 된 상태), 선형 로지스틱 교정 및 스플라인 로지스틱 교정입니다. 나는 회귀 모델링 전략 책과 강의 노트 에서 자세히 설명 합니다. http://www.fharrell.com/p/blog-page.html을 참조 하십시오 . R rms패키지를 사용하면 독립적 인 외부 샘플을 사용하거나 원래 모델 개발 샘플의 부트 스트랩을 사용하여 부드러운 비모수 적 교정 곡선을 쉽게 얻을 수 있습니다.


0

내 경험에서 비닝은 확률 분포를 시각화하는 데 좋지만 통계 테스트 및 / 또는 매개 변수 유추에 사용하려는 경우 일반적으로 나쁜 생각입니다. 주로 빈 너비만큼 정밀도를 즉시 제한하기 때문입니다. 또 다른 일반적인 문제는 변수가 바인딩되지 않은 경우, 즉 낮고 높은 컷오프를 가져와야한다는 것입니다.

콜 모고 로프-스 미르 노프 정신에서 누적 분포를 다루는 것은 이러한 많은 문제를 우회합니다. 이 경우에도 유용한 통계 방법이 많이 있습니다. (예 : https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test 참조 )

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.