생존 분석 문제에 대한 교육, 테스트, 검증


14

나는 여기에서 다양한 스레드를 탐색했지만 정확한 질문에 대답하지 않았다고 생각합니다.

~ 50,000 명의 학생 데이터와 이탈 시간이 있습니다. 잠재적 인 공변량이 많은 비례 위험 회귀 분석을 수행하려고합니다. 또한 중퇴 / 숙박에 대한 로지스틱 회귀 분석을 수행 할 예정입니다. 주요 목표는 새로운 학생 집단을 예측하는 것이지만, 작년의 집단과 크게 다를 것이라고 믿을 이유는 없습니다.

보통, 나는 그런 고급 데이터가없고 어떤 종류의 벌칙에 맞는 모델을 만들지 만 이번에는 int 훈련과 테스트 데이터 세트를 나누고 훈련 세트에서 변수 선택을하는 것으로 생각했습니다. 그런 다음 매개 변수 및 예측 용량을 추정하기 위해 테스트 데이터 세트를 사용합니다.

이것이 좋은 전략입니까? 그렇지 않다면 무엇이 더 낫습니까?

인용은 환영하지만 필수는 아닙니다.

답변:


8

비슷한 결과 빈도로 경우 데이터 분할이 작동 할 수 있음을 발견했습니다 . 또한 테스트 샘플을 한 번만 사용하는 경우 모델 성능에 대한 편견없는 추정치를 제공하여 모델 선택에 대한 적절한 처벌 (모델 선택이 실제로 필요한 경우 처벌이 더 나은 모델이 될 가능성이 더 높습니다)을 제공합니다. 그러나 매개 변수의 재 추정에 테스트 샘플을 사용하지 마십시오. 데이터 분할은 훈련 샘플을 사용하여 구축 된 모델을 사용하여 "심층 동결"상태로 만들고 조정없이 테스트 샘플에 적용합니다.n>20,000


감사. 80-20을 추천 하시겠습니까? 90-10? 다른 것? 이것에 대한 언급이 있습니까?
Peter Flom-Monica Monica 복원

2
최적의 분할 구성에 관한 문헌을 따라 가지 않았습니다. 그러나 몇 가지 일반적인 원칙이 적용됩니다. 검증 샘플의 경우 보정 곡선을 매우 정밀하게 추정 할 수있을만큼 충분히 큰 이 필요합니다. 그런 다음 남은 것이 신뢰할 수있는 모델 피팅에 적합하다는 것을 알 필요가 있습니다 (예 : 20 : 1 비율의 이벤트를 사용). 불이익을받지 않으면 매개 변수).
Frank Harrell

3

나는 교차 검증 생존 예측과 비슷한 과제 를 위해이 논문을 직접 보고있다 . 좋은 비트는 2 장에서 시작합니다.


이것은 5 배와 모델 CV 기반 추정을 비교하는 것으로 보입니다 (그리고 5 배가 더 낫다는 결론을 내립니다). 그러나 데이터를 두 부분으로 나누고 하나를 사용하여 다른 부분을 확인하는 데 더 관심이있었습니다.
Peter Flom-Monica Monica 복원

1
내가 찾은 테이크 아웃과 내가이 백서에 처음으로 끌린 이유는 생존 예측에서 검열을 처리하는 방법, 즉 사용할 손실 함수 (질문을 다시 읽더라도 검열이 없을 수 있음)였습니다.
Cam.Davidson.Pilon

나는 검열을 가지고 논문이 흥미롭지 만 내 질문에 대한 답은 아니다.
Peter Flom-Monica Monica 복원

1

그 후 내 질문에 대답 할뿐만 아니라 특정 데이터 세트에 대한 최적의 분할을 파악하는 방법을 제공하는 이 백서 를 발견 했습니다 . @FrankHarrell의 "최적 분할 구성"이라는 용어를 사용하여 Google에 감사를 표시했습니다.


2
피터 나는 종이가 부적절한 점수 규칙을 사용했다고 생각합니다. 적절한 점수 규칙을 사용하면 다른 결과를 얻을 수 있습니다. 또한이 논문은 분석의 "변동성"에 대해서는 다루지 않았습니다. 총 샘플 크기가 작 으면 다른 랜덤 스플릿을 사용하여 프로세스를 반복하면 첫 번째 스플릿과 비교할 때 모델이 다르고 정확도가 크게 달라집니다. 나는 그것이 바람직하지 않다는 것을 알았습니다.
Frank Harrell

@ FrankHarrell : 당신의 요점을 보았고 실제로 매우 좋은 요점입니다. 그렇다면 무엇을 권장합니까? Peform Monte Carlo는 기차 / 테스트 스플릿을 실행 한 다음 각 실행에서 ix k- 폴드 CV (또는 부트 스트랩)를 수행합니까? 그러나 이것은 전체 데이터 세트를 오염시킬 것입니다 .... 데이터 세트를 기차와 테스트 세트로 나누는 적절한 방법을 찾는 것보다 더 나은 해결책은 없습니다 (기준은 무엇입니까?) 나는 모든 것을 사용하는 데 불편하지 않습니다. (CV 또는 부팅을 사용하여) 모델 (일부 입력 데이터를 기반으로 알 수없는 출력 값을 예측하는 데 사용되는 모델) 교육 및 유효성 검사를위한 데이터 세트.
jpcgandre

나는 당신이 다른 주제 페이지에 게시 한 게시물에서 그 문제를 해결했습니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.