IMHO 홀드 아웃 검증의 최악의 속성 중 하나는 통계보다는 심리적입니다. 많은 홀드 아웃이 독립 검증 실험 (해당 실험 단계에 독립성을 가지고 있음) 인 것처럼 해석됩니다. 리샘플링 유효성 검사에서 볼 수있는 중요한 문제는 홀드 아웃에서도 동일하게 발생할 수 있으며 발생할 수 있습니다 (부적절한 분할로 인해 발생하는 문제).
그 외에도 IMHO는 리샘플링과 거의 동일합니다 (적어도 실제로 본 것 같습니다). 차이점은
- 실제로 다른 테스트 사례의 총 수는 더 적습니다 (따라서 추정치가 덜 확실 함).
- 홀드 아웃을 사용하면 홀드 아웃 트래킹과 홀드 아웃 테스트 데이터로 구축 된 실제로 테스트되지 않은 모델이 아니라 실제로 테스트 된 모델에 대해 성능이 주장됩니다. 리샘플링은 측정 된 성능이 후자의 모델 성능과 유사하다고 주장합니다. 그러나 홀드 아웃 접근 방식이 이런 식으로 사용되는 것을 보았습니다 ( "유효성 검증").
Esbensen과 Geladi : 적절한 검증 원칙 : 검증을위한 리샘플링의 사용 및 남용, Journal of Chemometrics, 24 (3-4), 168-187 은 실제 용어로는 데이터 세트에 대한 아주 좋은 근사치가 아니라고 주장합니다 (유효성 검증). 실제로 흥미로운 성능 특성을 측정 할 수 있습니다.
훈련 데이터에 과적 합하는 것과 같은 방법으로 테스트 데이터에 과적 합할 수 있습니다.
다른 유효성 검사와 동일 : 데이터 기반 모델링 / 모델 선택을 수행하는 경우 다른 독립적 인 수준의 유효성 검사가 필요합니다. 홀드 아웃과 리샘플링 구성표에는 차이점이 없습니다.
먼저 홀드 아웃 유효성 검사를 사용하여 모델을 빌드하고 테스트 한 다음 유효성 검사 단계로 홀드 아웃 세트를 여러 번 다시 그려서 테스트 세트의 예측 오류 추정치가 테스트의 샘플링 오류에 강하다는 것을 보여줍니다. 세트. 어떤 이유로 든 이것이 나쁜 생각입니까?
나는 그렇게 생각한다 .IMHO : 중첩 된 셋업을 사용해야한다
(홀드 아웃 유효성 검사가 반복 될 수 있고 반복되어야한다고 제안하지 않는 한-해석에 의해서만 반복 / 반복 세트 유효성 검사와 다른 유효한 접근법이다) : 성능 설명이 실제로 테스트 된 많은 모델에 대한 것인지 또는 모든 데이터로 구성된 하나의 모델에 외삽되는지 여부)