교차 유효성 검사 후 전체 데이터 세트 를 학습 하는 것이 항상 좋은 생각 입니까? 또 다른 방법으로 넣어, 그것은과 훈련 괜찮 모든 내 데이터 세트의 샘플 및 하지 이 특정 피팅 여부를 확인 할 수있는 overfits ?
문제에 대한 배경 지식 :
매개 변수화 된 모델 패밀리 가 있다고 가정하십시오 . 또한 데이터 포인트 세트가 있고 k- 겹 교차 검증을 통해 모델을 선택하여 데이터를 가장 일반화하는 모델을 선택한다고 가정하십시오. N
모델 선택의 경우, 각 후보에 대해 k- 폴드 교차 검증을 실행 하여 에서 검색 (예 : 그리드 검색)을 수행 할 수 있습니다 . 교차 검증의 각 접기에서 학습 된 모델 끝납니다 . βα
교차 검증의 요점은 이러한 각 접힘에 대해 학습 된 모델이 "보이지 않는 데이터"에서 테스트하여 과적 합한지 여부를 확인할 수 있다는 것입니다. 결과 에 따라 그리드 검색에서 교차 검증 중에 가장 일반화 되는 매개 변수 대해 학습 된 모델을 선택할 수 있습니다 .→ α 최고
이제, 말 모델 선택 후 , 내가 사용하고자하는 모든 더 나은 모델을 배우고 잘하면 내 데이터 세트에서 포인트를합니다. 이를 위해 모델 선택 중에 선택한 모델에 해당하는 매개 변수를 사용할 수 있으며 전체 데이터 세트에 대한 학습 후에는 새로운 학습 모델 있습니다. 문제는 내가 훈련을위한 내 데이터 세트에서 모든 포인트를 사용하는 경우,이다 이 새로운 학습 모델의 경우 내가 확인할 수 없습니다 overfits 어떤 보이지 않는 데이터. 이 문제를 해결하는 올바른 방법은 무엇입니까?→ α b e s t β f u l l β f u l l