개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까?
"의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. 동일한 데이터 세트에서 평가 된 많은 모델 중에서 가장 적합한 모델을 선택할 때 "과적 합"하기가 비교적 쉽습니다. Kaggle의 비공개 리더 보드에서는 이런 일이 일어나지 않습니까?
- 프라이빗 리더 보드에서 최고의 성능을 발휘하는 모델에 대한 통계적 정당성은 무엇입니까?
- 회사는 실제로 승리 한 모델을 사용하게됩니까, 아니면 "게임의 규칙"을 제공하기 위해 개인 리더 보드가 있습니까?
1
다소 관련 : stats.stackexchange.com/q/235591
—
Kodiologist
비공개 점수와 공개 점수의 차이를 확인할 수 있습니다. 적합하지 않은 모델은 두 데이터 세트 모두에서 유사한 성능을 달성해야한다고 주장 할 수 있습니다.
—
shadowtalker
@shadowtalker 실제로 과적 합을 탐지하는 좋은 방법이지만 실제로 우리가 관심을 가지는 것은 과적 합의 정도가 아니라 모형의 표본 외 예측력입니다. 초과 적합 모델 (즉, 표본 외부보다 샘플 내에서 훨씬 더 잘 작동하는 모형)은 초과 적합하지 않은 모델보다 표본 외부 성능이 더 우수 할 수 있습니다. 나는 참고 문헌이 없지만 CNN과 같은 복잡한 모델을 사용할 때 컴퓨터 비전과 같은 복잡한 도메인에서 종종 그렇습니다.
—
rinspy