나는 어떤 선수들이 혹독한 지구력 경주를 끝내게 될지 예측하기 위해 로지스틱 회귀를 훈련하고 있습니다.
이 경주를 마친 러너는 거의 없기 때문에 심각한 클래스 불균형과 작은 성공 사례 (수십 개)가 있습니다. 나는 거의 그것을 만든 수십 명의 주자로부터 좋은 "신호"를 얻을 수 있다고 생각 합니다. (내 훈련 데이터는 완성뿐만 아니라 완료되지 않은 것들도 실제로 얼마나 멀리 만들 었는가.) 따라서 "부분 크레딧"을 포함시키는 것이 끔찍한 아이디어인지 아닌지 궁금합니다. 나는 다양한 매개 변수가 주어질 수있는 부분 신용, 램프 및 물류 곡선에 대한 몇 가지 기능을 생각해 냈습니다.
회귀와의 유일한 차이점은 훈련 데이터를 사용 하여 이진 결과 대신 수정 된 연속 결과 를 예측한다는 것입니다. 테스트 세트에 대한 예측을 비교하고 (바이너리 응답을 사용하여) 상당히 결정적이지 않은 결과를 얻었습니다. 물류 부분 크레딧은 R- 제곱, AUC, P / R을 조금 개선하는 것처럼 보였지만 이는 하나의 사용 사례에서 a를 사용하여 한 번의 시도였습니다. 작은 샘플.
나는 약이 제대로되어 관심이 무엇 - 나는 예측 균일 완료 치우쳐 것에 대해 걱정하지 않는다 순위 끝까지 자신의 가능성에 참가자를, 또는 어쩌면 자신의 추정 상대 마무리의 가능성을.
로지스틱 회귀 분석은 예측 변수와 승산 비 로그 사이의 선형 관계를 가정하며 결과를 엉망으로 만들기 시작하면 분명히이 비율은 실제로 해석되지 않습니다. 나는 이것이 이론적 인 관점에서 똑똑하지 않다고 확신하지만 추가 신호를 얻거나 과적 합을 방지하는 데 도움이 될 수 있습니다. (성공만큼 많은 예측 변수가 있으므로 전체 완성 관계에 대한 점검으로 부분 완성 관계를 사용하는 것이 도움이 될 수 있습니다).
이 접근법은 책임감있는 실천에 사용 된 적이 있습니까?
어느 쪽이든, 이러한 유형의 분석에 더 적합한 다른 유형의 모델이 있습니까 (시간 대신 거리에 적용되는 위험률을 명시 적으로 모델링 한 것일 수도 있음)?