로지스틱 회귀를 훈련시키는 데 "부분 신용"(연속 결과)을주는 것이 좋은 생각입니까?


10

나는 어떤 선수들이 혹독한 지구력 경주를 끝내게 될지 예측하기 위해 로지스틱 회귀를 훈련하고 있습니다.

이 경주를 마친 러너는 거의 없기 때문에 심각한 클래스 불균형과 작은 성공 사례 (수십 개)가 있습니다. 나는 거의 그것을 만든 수십 명의 주자로부터 좋은 "신호"를 얻을 수 있다고 생각 합니다. (내 훈련 데이터는 완성뿐만 아니라 완료되지 않은 것들도 실제로 얼마나 멀리 만들 었는가.) 따라서 "부분 크레딧"을 포함시키는 것이 끔찍한 아이디어인지 아닌지 궁금합니다. 나는 다양한 매개 변수가 주어질 수있는 부분 신용, 램프 및 물류 곡선에 대한 몇 가지 기능을 생각해 냈습니다.

여기에 이미지 설명을 입력하십시오

회귀와의 유일한 차이점은 훈련 데이터를 사용 하여 이진 결과 대신 수정 된 연속 결과 를 예측한다는 것입니다. 테스트 세트에 대한 예측을 비교하고 (바이너리 응답을 사용하여) 상당히 결정적이지 않은 결과를 얻었습니다. 물류 부분 크레딧은 R- 제곱, AUC, P / R을 조금 개선하는 것처럼 보였지만 이는 하나의 사용 사례에서 a를 사용하여 한 번의 시도였습니다. 작은 샘플.

나는 약이 제대로되어 관심이 무엇 - 나는 예측 균일 완료 치우쳐 것에 대해 걱정하지 않는다 순위 끝까지 자신의 가능성에 참가자를, 또는 어쩌면 자신의 추정 상대 마무리의 가능성을.

로지스틱 회귀 분석은 예측 변수와 승산 비 로그 사이의 선형 관계를 가정하며 결과를 엉망으로 만들기 시작하면 분명히이 비율은 실제로 해석되지 않습니다. 나는 이것이 이론적 인 관점에서 똑똑하지 않다고 확신하지만 추가 신호를 얻거나 과적 합을 방지하는 데 도움이 될 수 있습니다. (성공만큼 많은 예측 변수가 있으므로 전체 완성 관계에 대한 점검으로 부분 완성 관계를 사용하는 것이 도움이 될 수 있습니다).

이 접근법은 책임감있는 실천에 사용 된 적이 있습니까?

어느 쪽이든, 이러한 유형의 분석에 더 적합한 다른 유형의 모델이 있습니까 (시간 대신 거리에 적용되는 위험률을 명시 적으로 모델링 한 것일 수도 있음)?

답변:


11

이것은 Cox 비례 위험 분석 또는 일부 파라 메트릭 생존 모델과 같은 생존 분석 작업으로 보입니다.

설명하는 방식과 반대로이 문제에 대해 생각해보십시오. 이전 거리와 종료 와 관련된 예측 변수는 무엇 입니까?

종료는 이벤트입니다. 적용되는 거리는 표준 생존 분석에서 이벤트 시간과 동등한 것으로 간주 될 수 있습니다. 그런 다음 종료 한 개인의 수와 동일한 수의 이벤트가 있으므로 제한된 수의 예측 변수에 대한 문제점이 줄어 듭니다. 종료 한 모든 사람이 정보를 제공합니다.

Cox 모델이 데이터에서 작동하는 경우 모든 예측 변수 값을 기반으로 선형 예측 변수를 제공하고 예상 거리를 종료 할 때까지 참가자의 순위를 정합니다.


고마워 Cox 모델을 사용하면 종료까지 예상 거리가 가장 긴 러너도 비례 위험 구조로 인해 마무리 거리 전에 종료 될 가능성이 가장 적습니다. 정확합니까? 또한, 당신이 이것을 추천하고 있기 때문에, 부분적인 신용 아이디어를 추측하는 것이 당신에게 잘 설립되지는 않았습니까?
C8H10N4O2

본질적으로 맞습니다. 나는 이론적, 실제적 근거가 잘 확립 된 방식으로 "부분 신용"을 제공하는 방법으로 생존 모델에 거리-거리를 포함시키는 것을 본다. 세부 사항을 검토하지는 않았지만 그래프에 표시된대로 이것이 의도 한 것을 정확하게 달성한다고 생각합니다.
EdM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.