일반적으로 K-배보다 더 나은 성능으로 이어질하지 않습니다 교차 검증을--하나를두고이 될 가능성이 더 악화 가 상대적으로 높은 분산을 가지고로 (즉, 그 값은 값보다 다양한 데이터 샘플에 대한 더 많은 변경 k 배 교차 검증). 이는 모델 선택 기준에서 성능이 크게 향상되지 않고 특정 데이터 샘플의 랜덤 변동을 악용하는 방식으로 모델 선택 기준을 최적화 할 수 있다는 의미에서 좋지 않습니다. 즉, 과적 합 가능성이 높습니다. 모델 선택 기준. Leave-One-Out 교차 검증이 실제로 사용되는 이유는 많은 모델의 경우 모델 피팅의 부산물로 매우 저렴하게 평가할 수 있기 때문입니다.
계산 비용이 주로 문제가되지 않는 경우 k- 폴드 교차 검증을 반복하는 것이 더 나은 방법입니다. 여기서 k- 폴드 교차 검증 절차는 매번 다른 임의의 파티션으로 k 개의 분리 된 서브 세트로 반복됩니다. 이것은 분산을 줄입니다.
패턴이 20 개만있는 경우 통계 및 기계 학습에서 무시되는 함정 인 모델 선택 기준을 과도하게 맞출 가능성이 큽니다 (매끄러운 플러그 : 주제에 대한 내 논문 참조 ). 상대적으로 간단한 모델을 선택하는 것이 더 나을 수도 있고 매우 적극적으로 최적화하지 않거나, 베이지안 접근 방식을 채택하고 그 모델의 타당성에 따라 모든 모델 선택에 대한 평균을 계산하는 것이 좋습니다. IMHO 최적화는 통계의 모든 악의 근원이므로, 필요하지 않으면 최적화하지 말고 항상주의해서 최적화하는 것이 좋습니다.
또한 모델 선택을 수행하려는 경우 성능 추정이 필요한 경우 중첩 교차 검증과 같은 것을 사용해야합니다 (예 : 모델 선택을 모델 피팅 프로 시저의 필수 부분으로 간주하고 교차 검증) 게다가).