이미 여기에있는 멋진 답변에 몇 가지 요점을 추가하겠습니다.
중첩 된 K- 폴드 대 반복 된 K- 폴드 : 중첩 된 K- 폴드와 반복 된 K- 폴드는 완전히 다른 목적으로 사용됩니다.
- 이미 알고 있듯이 모델 선택에 내부 cv를 사용하려면 중첩이 좋습니다.
- 반복됨 : IMHO 항상 k- 폴드 cv를 반복해야합니다 [아래 참조].
따라서 중첩 된 k- 폴드 교차 검증 을 반복하는 것이 좋습니다 .
더 나은 보고서 "전체 표본 (이 경우 CV 표본)에 대한 추정량 통계 (예 : 신뢰 구간, 분산, 평균 등)입니다." :
확실한. 그러나 교차 검증 결과만으로는 신뢰 구간을 쉽게 추정 할 수 없다는 사실을 알고 있어야합니다. 그 이유는 재 샘플링을 많이하지만 실제로보고하는 사례의 수는 한정적이기 때문입니다 (보통 다소 작습니다. 그렇지 않으면 이러한 차이를 신경 쓰지 않을 것입니다).
예를 들어 Bengio, Y. 및 Grandvalet, Y .: K-Fold Cross-Validation의 편차에 대한 편견없는 추정값 참조 Journal of Machine Learning Research, 2004, 5, 1089-1105 .
그러나 일부 상황에서는 분산을 추정 할 수 있습니다. k- 폴드 교차 검증을 반복하면 모델 불안정성이 중요한 역할을하는지 알 수 있습니다. 이 불안정성 관련 분산은 실제로 교차 검증을 반복하여 줄일 수있는 분산의 일부입니다. (모델이 완벽하게 안정된 경우 교차 검증의 각 반복 / 반복은 각 경우에 대해 정확히 동일한 예측을 갖습니다. 그러나 데이터 세트의 실제 선택 / 구성으로 인해 여전히 차이가 있습니다). 따라서 반복되는 k- 폴드 교차 검증의 낮은 분산 에는 한계가 있습니다. 결국 실제 사례 만 테스트 되었기 때문에 발생하는 차이 는 영향을받지 않으므로 점점 더 많은 반복 / 반복을 수행하는 것은 의미 가 없습니다. n
실제로 실제 사례 만 테스트 되었다는 사실로 인한 분산 은 일부 특수한 경우 (예 : 적중률, 오류율, 감도, 특이도, 예측값 등의 비율로 측정 된 분류기의 성능)에 대해 추정 할 수 있습니다. : 그들이 가지고이 수단 불행히도 이항 분포를 따라 큰 변화 와 모델의 실제 성능 값을 관측 및 분수의 분모의 샘플 크기. 이것은 의 최대 값을 갖습니다.σ (2) ( P ) = 1nP는 P는 N 개의P=0.5σ2(p^)=1np(1−p)pp^np=0.5. 관측치에서 시작하여 신뢰 구간을 계산할 수도 있습니다. (@Frank Harrell은 이러한 규칙이 적절한 점수 규칙이 아니라고 말하므로 어쨌든 규칙을 사용해서는 안됩니다. 이는 큰 차이와 관련이 있습니다). 그러나 IMHO는 보수적 범위를 도출하는 데 유용합니다 (더 나은 점수 규칙이 있으며 이러한 분수의 나쁜 동작이 더 나은 규칙의 최악의 경우입니다) .
예를 들어 C. Beleites, R. Salzer 및 V. Sergo : 부분 클래스 멤버십을 사용한 소프트 분류 모델의 유효성 검사 : Astrocytoma Tissues 등급 부여에 적용된 Senstivity & Co. Intell. 랩. Syst., 122 (2013), 12-22.
그래서 이것으로 홀드 아웃에 대한 당신의 주장을 바꿀 수 있습니다 .
- 또한 리샘플링만으로는 (필수적으로) 분산의 좋은 추정치를 얻지 못합니다.
- OTOH, 교차 검증 추정치의 유한-검정-크기-분산에 대해 추론 할 수 있다면, 그것은 또한 가능합니다.
이 단일 측정에 대한 추정기는 홀드 아웃 세트를위한 공간을 만들어야하므로 초기 샘플보다 작은 세트 (예 : CV 세트)에 대해 학습되었습니다. 이로 인해 P1에서보다 편향된 (비관적) 추정이 이루어집니다.
반드시 (k-fold와 비교되는 경우)-트레이드 오프 : 작은 홀드 아웃 세트 (예 : 샘플의 => 낮은 바이어스 (≈ k-fold cv와 동일), 높은 분산 (> k- 폴드 cv, 대략 k의 인자만큼).1k
CV 샘플 분석이보다 유익하기 때문에 홀드 아웃 테스트 세트에 대한보고는 좋지 않은 것으로 보입니다.
일반적으로 그렇습니다. 그러나 리샘플링 유효성 검사로 측정 / 감지 할 수없는 중요한 유형의 오차 (예 : 드리프트)가 있음을 명심해야합니다.
예 : Esbensen, KH 및 Geladi, P. 적절한 검증 원칙 : 검증을위한 리샘플링 사용 및 남용, Journal of Chemometrics, 2010, 24, 168-187
그러나 훈련 된 동일한 총 모델 수 (총 폴드 수)에 대해 K-fold를 반복하면 중첩 된 K-fold보다 편향이 적고 더 정확한 추정기가 생성됩니다. 이것을 보려면 :
반복 K- 폴드는 동일한 K에 대해 중첩 된 K- 폴드보다 전체 샘플의 더 큰 부분을 사용합니다 (즉, 바이어스가 낮아짐)
대리 모델과 "실제"모델이 동일한 것을 사용 하는 한 , 모델 교육이 교육 샘플을 사용 하는 방법 은 중요하지 않습니다. 방법. (모델 설정의 일부로 하이퍼 파라미터의 내부 교차 검증 / 추정을 봅니다).
하이퍼 파라미터 최적화를 포함하여 학습 된 대리 모델을 고정 하이퍼 파라미터에 대해 학습 된 "모델"과 비교하면 상황이 다르게 보입니다. 그러나 IMHO는 사과에서 1 오렌지 까지 일반화하고 있습니다.kk−1kn
k
100 회 반복하면 중첩 K- 폴드에서 추정값을 10 회만 측정 할 수 있지만 (K = 10) K- 폴드에서 100 회 측정이 가능합니다 (더 많은 측정은 P2의 분산이 낮아짐)
이것이 차이를 만들지 여부는 (대리) 모델의 불안정성에 따라 다릅니다. 위를 참조하십시오. 안정적인 모델의 경우 관련이 없습니다. 따라서 1000 회 또는 100 회의 외부 반복 / 반복을 수행 할 수 있습니다.
그리고이 논문은
Cawley, GC 및 Talbot, NLC On Modeling 과피 팅 및 성능 평가의 후속 선택 바이어스, 머신 러닝 리서치, 2010, 11, 2079-2107