나는 여기에서 다양한 스레드를 탐색했지만 정확한 질문에 대답하지 않았다고 생각합니다.
~ 50,000 명의 학생 데이터와 이탈 시간이 있습니다. 잠재적 인 공변량이 많은 비례 위험 회귀 분석을 수행하려고합니다. 또한 중퇴 / 숙박에 대한 로지스틱 회귀 분석을 수행 할 예정입니다. 주요 목표는 새로운 학생 집단을 예측하는 것이지만, 작년의 집단과 크게 다를 것이라고 믿을 이유는 없습니다.
보통, 나는 그런 고급 데이터가없고 어떤 종류의 벌칙에 맞는 모델을 만들지 만 이번에는 int 훈련과 테스트 데이터 세트를 나누고 훈련 세트에서 변수 선택을하는 것으로 생각했습니다. 그런 다음 매개 변수 및 예측 용량을 추정하기 위해 테스트 데이터 세트를 사용합니다.
이것이 좋은 전략입니까? 그렇지 않다면 무엇이 더 낫습니까?
인용은 환영하지만 필수는 아닙니다.