2 단계 모델을 구축한다는 아이디어는 올바른 방법이지만, 부채 금액과 지불 가능성 사이의 매우 강한 음의 상관 관계인 설정의 특별한 어려움을 고려해야합니다.
여기서 2 단계 모델을 구축하는 주요 문제는 "제로가 아닌"에만 기반을 둔 두 번째 모델 (채무 예측 용) 이 인구의 비 랜덤 표본 일 가능성이 가장 높다는 것입니다 ( 즉, 전체 데이터 세트), 그러나 결합 된 모델은 전체 모집단에 다시 적용되어야 합니다. 즉, 두 번째 모델은 이전에는 본 적이없는 데이터의 일부를 예측해야하므로 정확도가 떨어집니다. 이것을 샘플 선택 바이어스 라고 합니다 (ML 관점에서의 개요를 위해 Smith와 Elkan의 거부 추론 을 위한 베이지안 네트워크 프레임 워크를 권장합니다 ).
KDD 컵-98은 하나는 베테랑 조직 기증자 가능성이 다시 기부하고 얼마나 가능성이 기부하는 것입니다 여부를 예측한다 유사한 문제 처리. 이 데이터 세트에서 다시 기부 할 확률은 예상 금액과 음의 상관 관계가있었습니다. 샘플 선택 바이어스도 나타났습니다.
비앙카 자 드로즈 니 (Bianca Zadrozny)와 찰스 엘칸 (Charles Elkan) 이 비용과 확률을 모두 알 수 없을 때 학습과 의사 결정 에서 가장 큰 인상을받은 솔루션을 찾을 수 있습니다 . 그들은 Heckman 보정을 기반으로 비용에 민감한 솔루션을 만들었습니다 .