교차 검증 오용 (최고 하이퍼 파라미터 값에 대한 성능보고)

최근 에는 특정 데이터 세트에서 k-NN 분류기를 사용하도록 제안하는 논문을 보았습니다 . 저자는 사용 가능한 모든 데이터 샘플을 사용하여 서로 다른 k 값 에 대해 k- 폴드 교차 검증을 수행 하고 최상의 하이퍼 파라미터 구성의 교차 검증 결과를보고했습니다.

내 지식으로는이 결과는 편향되어 있으며 하이퍼 파라미터 최적화를 수행하는 데 사용되지 않은 샘플에 대한 정확도 추정치를 얻기 위해 별도의 테스트 세트를 유지해야합니다.

내가 맞아? 이러한 교차 검증 오용을 설명하는 참고 자료 (바람직하게는 연구 논문)를 제공 할 수 있습니까?

— 다니엘 로페즈
소스

별도의 테스트 세트 대신 소위 중첩 교차 검증을 사용할 수 있습니다 . 이 사이트에서이 용어를 검색하면 많은 토론이 있습니다. 허용 된 답변에 인용 된 두 번째 논문의 저자 중 하나 인 @DikranMarsupial의 답변 을 특히 살펴보십시오 .

— amoeba는

예, k- 폴드 CV 결과 만보고하는 데 문제가 있습니다. 예를 들어 다음 세 가지 출판물을 목적에 맞게 사용할 수 있습니다 (물론 더 많은 것이 있지만).

나는 개인적으로 문제를 수학보다 평범한 영어로 진술하려고하기 때문에 개인적으로 좋아합니다.

— 괴짜
소스

보다 정확하게는이 문제는 교차 검증 결과를보고하는 것이 아니라 선택 / 최적화 프로세스의 일부인 성능 추정치를보고하는 것입니다.

— cbeleites는

또한 여기서 문제가 특정 데이터 세트에 대해 훈련 된 특정 모델의 성능 인 경우 Bengio & Grandvalet 논문은 다소 관련이 없습니다. 동일한 소스에서 샘플링 된 동일한 크기의 서로 다른 데이터 세트 간의 차이를 포함-특정 데이터 세트에 대해 훈련 된 모델의 예측 성능에 대해 이야기하는 경우에는 문제가되지 않습니다.

— cbeleites는

@cbeleites 올바르게 발견 : 답변의 첫 번째 초안에서 실수로 두 번째 참조 대신 세 번째 참조를 선택했지만 나중에 이미 승인 된 답변에서 더 이상 정보를 제거하고 싶지 않았습니다. 사이에 있습니다 (응답 버전 참조). 그럼에도 불구하고, 나는 그 질문이 주로보고 된 오류에 관한 것이라고 생각하며, 그 논문들은 IMHO와 관련하여 CV에 잘못 될 수있는 것들 중 일부를 지적합니다.

— geekoverdose