최근 에는 특정 데이터 세트에서 k-NN 분류기를 사용하도록 제안하는 논문을 보았습니다 . 저자는 사용 가능한 모든 데이터 샘플을 사용하여 서로 다른 k 값 에 대해 k- 폴드 교차 검증을 수행 하고 최상의 하이퍼 파라미터 구성의 교차 검증 결과를보고했습니다.
내 지식으로는이 결과는 편향되어 있으며 하이퍼 파라미터 최적화를 수행하는 데 사용되지 않은 샘플에 대한 정확도 추정치를 얻기 위해 별도의 테스트 세트를 유지해야합니다.
내가 맞아? 이러한 교차 검증 오용을 설명하는 참고 자료 (바람직하게는 연구 논문)를 제공 할 수 있습니까?
3
별도의 테스트 세트 대신 소위 중첩 교차 검증을 사용할 수 있습니다 . 이 사이트에서이 용어를 검색하면 많은 토론이 있습니다. 허용 된 답변에 인용 된 두 번째 논문의 저자 중 하나 인 @DikranMarsupial의 답변 을 특히 살펴보십시오 .
—
amoeba는