이항 반응과 연속 반응을 결합하는 가장 좋은 방법


10

수금 대행사의 지불 금액을 예측하는 가장 좋은 방법을 찾으려고합니다. 지불이 이루어진 경우 종속 변수는 0이 아닙니다. 이해할 수 있듯이 대부분의 사람들이 빚을 갚을 수 없거나 갚을 수 없기 때문에 압도적 인 0이 있습니다.

부채 금액과 지불 가능성 사이에는 매우 강한 음의 상관 관계가 있습니다. 일반적으로, 나는 지불 / 비 지불의 확률을 예측하기 위해 물류 모델을 만들지 만 이것은 가장 낮은 잔고를 가진 사람들을 찾는 불행한 결과를 초래합니다.

물류 지불 / 비 지불 모델을 지불 금액을 예측하는 별도의 모델과 결합하는 방법이 있습니까?


5
부풀려진 로그 정규 회귀가 0으로 표시되어 필요에 맞는 것 같습니다. 이 백서
Peter Flom

@PeterFlom 이것은 2 단계 모델과 샘플 선택 바이어스에 대한 gui11aume 및 steffen의 토론과 어떻게 비교 되는가?
As3adTintin

1
둘 다 유용 할 수 있다고 생각합니다. 두 가지를 비교 한 토론이 있었지만 어디서 읽었는지 잊어 버렸습니다.
Peter Flom

결과적으로 출력에 대한 relu 활성화와 평균 제곱 로그 손실을 갖는 신경망을 만드는 것이 었습니다
Zelazny7

알았어 고마워. 신경망 / relu 활성화는 현재의 지식을 넘어서 들리지만 계속해서 조사하겠습니다. 원래 질문과 의견을 주셔서 감사합니다!
As3adTintin

답변:


6

2 단계 모델을 구축한다는 아이디어는 올바른 방법이지만, 부채 금액과 지불 가능성 사이의 매우 강한 음의 상관 관계인 설정의 특별한 어려움을 고려해야합니다.

여기서 2 단계 모델을 구축하는 주요 문제는 "제로가 아닌"에만 기반을 둔 두 번째 모델 (채무 예측 용) 이 인구의 비 랜덤 표본 일 가능성이 가장 높다는 것입니다 ( 즉, 전체 데이터 세트), 그러나 결합 된 모델은 전체 모집단에 다시 적용되어야 합니다. 즉, 두 번째 모델은 이전에는 본 적이없는 데이터의 일부를 예측해야하므로 정확도가 떨어집니다. 이것을 샘플 선택 바이어스 라고 합니다 (ML 관점에서의 개요를 위해 Smith와 Elkan의 거부 추론위한 베이지안 네트워크 프레임 워크를 권장합니다 ).

KDD 컵-98은 하나는 베테랑 조직 기증자 가능성이 다시 기부하고 얼마나 가능성이 기부하는 것입니다 여부를 예측한다 유사한 문제 처리. 이 데이터 세트에서 다시 기부 할 확률은 예상 금액과 음의 상관 관계가있었습니다. 샘플 선택 바이어스도 나타났습니다.

비앙카 자 드로즈 니 (Bianca Zadrozny)와 찰스 엘칸 (Charles Elkan) 이 비용과 확률을 모두 알 수 없을 때 학습과 의사 결정 에서 가장 큰 인상을받은 솔루션을 찾을 수 있습니다 . 그들은 Heckman 보정을 기반으로 비용에 민감한 솔루션을 만들었습니다 .


+1 두 번째 단락은 제 대답에서 빠진 부분을 아주 잘 강조합니다.
gui11aume

이것은 피터 플럼 (Peter Flom)의 제로 팽창 로그 정규 회귀 분석과 어떻게 비교 되는가?
As3adTintin

3

아주 좋은 질문입니다 (+1).

왜 0을 NA 인 것처럼 취급하지 않습니까?

돈이 회수되었는지 여부를 나타내는 더미 응답을 추가 할 수 있습니다 ( , 값이 0이면 0, 값이 양수이면 1). 모든 데이터 포인트를 사용하는 이진 반응과 0이 아닌 데이터 포인트 만 사용하는 연속 반응 (0을 NA로 처리한다는 아이디어에 따라)의 두 가지 모델에 적합합니다.

두 매개 변수 세트를 모두 사용하여 각 모델에서 매개 변수의 널 (NULL)을 테스트하고 예상 이득을 계산할 수 있습니다.


제안 해 주셔서 감사합니다. 내 질문 전에 나는 당신이 묘사 한 것과 비슷한 두 개의 종속 변수와 데이터 세트를 만들었습니다. "paramenters의 Null of nullment"가 의미하는 바를 자세히 설명 할 수 있습니까? 감사!
Zelazny7

"매개 변수의 null은 여전히"텍스트에서 수정 한 오타였습니다. 죄송합니다 :-)
gui11aume
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.