지속적인 결과와 함께 LASSO를 사용하는 일부 후보 예측 변수에서 모델 선택을 시도하고 있습니다. 목표는 LASSO로부터 튜닝 파라미터의 솔루션 경로를 얻은 후에 K- 폴드 교차 검증에 의해 수행 될 수있는 최고의 예측 성능을 갖는 최적 모델을 선택하는 것이다. 여기서 문제는 데이터가 군집 샘플링 및 계층화가있는 복잡한 다단계 조사 설계 (NHANES)에서 나온다는 것입니다. glmnet
R에서 샘플링 가중치를 취할 수 있기 때문에 추정 부분은 어렵지 않습니다 . 그러나 교차 검증 부분은 이제 더 이상 관측치가 더 이상 iid가 아니기 때문에 명확하지 않으며 절차는 유한 모집단을 나타내는 가중치를 어떻게 계산할 수 있습니까?
그래서 내 질문은 :
1) 최적의 튜닝 파라미터를 선택하기 위해 복잡한 측량 데이터로 K- 폴드 교차 검증을 수행하는 방법은 무엇입니까? 보다 구체적으로, 샘플 데이터를 교육 및 검증 세트로 적절히 분할하는 방법은 무엇입니까? 예측 오차의 추정치를 정의하는 방법은 무엇입니까?
2) 최적의 튜닝 파라미터를 선택하는 다른 방법이 있습니까?