먼저 이해하는대로 질문에 사용 된 용어를 명확하게 설명하겠습니다. 우리는 일반적으로 하나의 학습 데이터 세트로 시작하고 k- 폴드 교차 검증을 사용하여 다른 모델 (또는 하이퍼 파라미터 세트)을 테스트하고 CV 오류가 가장 낮은 최상의 모델을 선택합니다. 따라서 '테스트 오류의 교차 검증 추정'은 랜덤 모델의 CV 오류 (cbeleites에 의해 논의 된 경우가 아니라 일반적으로하는 것이 아님)가 아닌 가장 낮은 CV 오류를 테스트 오류로 사용하는 것을 의미합니다. 문제의 '실제 테스트 오류'는 무한한 테스트 데이터 세트에 최상의 CV 모델을 적용 할 때 얻을 수있는 오류입니다. CV 오류는 우리가 보유한 특정 데이터 세트에 따라 달라지며 실제 테스트 오류는 선택한 최고의 CV 모델에 따라 달라지며, 이는 훈련 데이터 세트에 따라 다릅니다. 따라서 CV 오류와 테스트 오류의 차이는 다른 학습 데이터 세트에 따라 다릅니다. 그렇다면 우리가 다른 훈련 데이터 세트로 위의 과정을 여러 번 반복하고 두 오류를 각각 평균화하면 질문은 왜 평균 CV 오류가 평균 테스트 오류보다 낮습니까? 즉, CV 오류가 아래로 바이어스됩니까? 그러나 그 전에는 항상 이런 일이 발생합니까?
일반적으로 무한한 행을 포함하는 많은 훈련 데이터 세트와 테스트 데이터 세트를 얻는 것은 불가능합니다. 그러나 시뮬레이션으로 생성 된 데이터를 사용하여 그렇게 할 수 있습니다. Trevor Hastie 등의 "Statistical Learning의 요소"책의 "제 7 장 모델 평가 및 선택"에서 여기에는 그러한 시뮬레이션 실험이 포함됩니다.
결론은 CV 또는 부트 스트랩을 사용하여 "... 특정 훈련 세트에 대한 테스트 오류 추정은 일반적으로 동일한 훈련 세트의 데이터 만 고려하면 쉽지 않다"는 것입니다. '쉽지 않다'는 말은 CV 오류가 다른 학습 데이터 세트에 따라 실제 테스트 오류를 과소 평가하거나 과대 평가할 수 있음을 의미합니다. 즉, 다른 학습 데이터 세트로 인한 편차가 상당히 큽니다. 편견은 어떻습니까? 테스트 한 kNN 및 선형 모델은 거의 편향되지 않았습니다. CV 오류는 실제 테스트 오류를 0-4 %로 과대 평가하지만 "트리, 교차 유효성 검사 및 부트 스트랩과 같은 일부 모델은 실제 오류를 10 % 정도 과소 평가할 수 있습니다. 최상의 트리 검색은 유효성 검사 세트의 영향을 많이받습니다 ".
요약하면, 특정 학습 데이터 세트의 경우 CV 오류는 실제 테스트 오류보다 높거나 낮을 수 있습니다. 바이어스의 경우, 평균 CV 오류는 모델링 방법에 따라 평균 실제 테스트 오류보다 약간 높을 수 있습니다.
과소 평가의 이유는 위에서 언급 한 것처럼 최상의 모델을위한 하이퍼 파라미터의 선택은 궁극적으로 우리가 얻는 특정 훈련 데이터 세트에 의존하기 때문입니다. 조금만 자세히 살펴보면,이 특정 교육 데이터 세트에서 최고의 하이퍼 파라미터가 M1이되게하십시오. 그러나 M1은 다른 교육 데이터 세트에서 최고의 하이퍼 파라미터가 될 수 없습니다. 즉, 최소 CV 오류는 M1의 CV 오류보다 작습니다. 따라서 훈련 과정에서 얻은 예상 CV 오류는 M1의 예상 CV 오류보다 훨씬 적습니다. 특정 교육 데이터 세트의 최소 CV 오류가 바이어스되지 않는 유일한 시간은 최상의 모델이 항상 교육 데이터 세트와 무관 한 경우입니다. 다른 한편으로, CV 오류는 또한 cbeleites가 논의한 것처럼 실제 테스트 오류를 약간 과대 평가할 수 있습니다. 이는 kfold CV 오차가 훈련 데이터를 조금 덜 사용하여 모델을 훈련함으로써 얻어지기 때문에 (10 배 cv의 경우 90 % 데이터 사용) 실제 오차에 대해 상향 편향되지만 그다지 크지 않습니다. 서로 다른 방향으로 나아가는 두 가지 편견이 있습니다. 모델링 방법의 경우 5 배 대 10 배와 같이 덜 폴드 CV를 사용하여 과적 합하는 경향이있어 편향이 줄어 듭니다.
실제로, 그것은 실제로 많은 도움이되지 않습니다 : 우리는 일반적으로 하나의 '특별한'데이터 세트 만 얻습니다. 테스트 데이터로 15 % ~ 30 %를 유지하고 나머지를 교육 데이터로 이력서에 의해 최상의 모델을 선택하면 CV 오류가 예상 테스트 오류와 다르기 때문에 테스트 오류와 다를 수 있습니다. CV 오류가 테스트 오류보다 훨씬 낮은 경우 의심 스러울 수 있지만 실제 테스트 오류에 가까운 오류는 알 수 없습니다. 가장 좋은 방법은 두 측정 항목을 모두 제시하는 것입니다.