참고 : 사례는 n >> p입니다.
통계 학습의 요소를 읽고 있으며 교차 검증을 수행하는 "올바른"방법에 대한 다양한 언급이 있습니다 (예 : 60 페이지, 245 페이지). 특히, 내 질문은 모델 검색이있을 때 k- 폴드 CV 또는 부트 스트랩을 사용하여 (별도의 테스트 세트없이) 최종 모델을 평가하는 방법입니다. 대부분의 경우 (내장 기능 선택이없는 ML 알고리즘)이있는 것 같습니다
- 기능 선택 단계
- 메타 매개 변수 선택 단계 (예 : SVM의 비용 매개 변수)
내 질문 :
- 전체 교육 세트에서 기능 선택을 수행하고 따로 보관하는 기능 선택 단계를 수행 할 수 있음을 확인했습니다. 그런 다음 k- 폴드 CV를 사용하여 특징 선택 알고리즘이 각 접기에서 사용되며 (매번 선택할 수있는 다른 특징을 얻음) 오류는 평균화됩니다. 그런 다음 모든 데이터 (제외 설정)를 사용하여 선택한 기능을 사용하여 최종 모드를 학습하지만 교차 검증의 오류를 향후 모델의 성능 추정값으로 사용합니다. 이 올바른지?
- 교차 검증을 사용하여 모델 매개 변수를 선택할 때 나중에 모델 성능을 추정하는 방법 위의 1 단계와 같은 절차는 54 페이지 ( pdf ) 또는 다른 것과 같이 필요한 CV를 사용해야 합니까?
- 두 단계 (기능 및 매개 변수 설정)를 수행 할 때 어떻게해야합니까? 복잡한 중첩 루프?
- 별도의 홀드 아웃 샘플이있는 경우 우려가 사라지고 교차 검증을 사용하여 기능 및 매개 변수를 선택할 수 있습니다 (성능 추정치가 홀드 아웃 세트에서 나올 것이므로 걱정하지 않아도 됨)?