모든 통계 절차가 "교차 유효성 검사"라고도하는 훈련 / 테스트 데이터로 분리되는 것은 아닙니다 (전체 절차에 약간의 차이가 있지만).
오히려, 이것은 샘플 외부 오차 를 추정 하는 데 특히 사용되는 기술입니다 . 즉, 모델이 새로운 데이터 세트를 사용하여 새로운 결과를 얼마나 잘 예측할 수 있습니까? 예를 들어 데이터 세트의 표본 수에 비해 매우 많은 예측 변수가있는 경우 이는 매우 중요한 문제가됩니다. 이러한 경우, 표본 내 오차가 크지 만 표본 오차에서 끔찍한 ( "과도 적합"이라고 함) 모델을 작성하는 것은 실제로 쉽습니다. 많은 수의 예측 변수와 많은 수의 샘플이 모두있는 경우 교차 검증은 새 데이터를 예측할 때 모델이 얼마나 잘 작동하는지 평가하는 데 필요한 도구입니다. 또한 경쟁 예측 모델 중에서 선택할 때 중요한 도구입니다.
다른 말로, 교차 검증은 예측 모델 을 만들 때 거의 항상 사용됩니다 . 일반적으로 일부 치료의 효과를 추정하려고 할 때 모델에는별로 도움이되지 않습니다. 예를 들어, 재료 A와 B 사이의 인장 강도 분포 (재료 유형 인 "처리")를 비교하는 경우 교차 검증이 필요하지 않습니다. 우리는 치료 효과 추정치가 표본을 일반화하기를 희망하지만, 대부분의 문제에서 고전적인 통계 이론은 교차 검증보다 더 정확하게 이것에 답할 수 있습니다 (즉, 추정치의 "표준 오차") . 불행히도, 고전적인 통계 방법론 1과적 합의 경우 표준 오차가 유지되지 않습니다. 이 경우 교차 유효성 검사가 종종 훨씬 더 좋습니다.
다른 한편으로, 100,000 개의 관측치에 기초하여 일부 머신 러닝 모델에 던지는 10,000 개의 측정 변수를 기반으로 재료가 파손되는 시점을 예측하려고하면 교차 검증없이 훌륭한 모델을 구축하는 데 많은 어려움이 있습니다!
나는 많은 물리 실험에서 추측하고 있습니다. 일반적으로 효과 추정에 관심이 있습니다. 이 경우 교차 검증이 거의 필요하지 않습니다.
1 사전 정보가있는 베이지안 방법은 과적 합을 다루는 고전적인 통계 방법론이라고 주장 할 수 있습니다. 그러나 그것은 또 다른 토론입니다.
참고 사항 : 교차 유효성 검사는 통계 문헌에 처음 나타나고 통계학 자라고하는 사람들이 확실히 사용하지만 머신 러닝 커뮤니티에서 필수적인 필수 도구가되었습니다. 많은 통계 모델은 교차 검증을 사용하지 않고도 잘 작동하지만 "기계 학습 예측 모델"로 간주되는 거의 모든 모델은 종종 조정 매개 변수를 선택 해야하므로 교차 검증 없이는 거의 불가능 하므로 교차 검증이 필요합니다. -확인.