Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?


16

개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까?

"의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. 동일한 데이터 세트에서 평가 된 많은 모델 중에서 가장 적합한 모델을 선택할 때 "과적 합"하기가 비교적 쉽습니다. Kaggle의 비공개 리더 보드에서는 이런 일이 일어나지 않습니까?

  • 프라이빗 리더 보드에서 최고의 성능을 발휘하는 모델에 대한 통계적 정당성은 무엇입니까?
  • 회사는 실제로 승리 한 모델을 사용하게됩니까, 아니면 "게임의 규칙"을 제공하기 위해 개인 리더 보드가 있습니까?


2
비공개 점수와 공개 점수의 차이를 확인할 수 있습니다. 적합하지 않은 모델은 두 데이터 세트 모두에서 유사한 성능을 달성해야한다고 주장 할 수 있습니다.
shadowtalker

2
@shadowtalker 실제로 과적 합을 탐지하는 좋은 방법이지만 실제로 우리가 관심을 가지는 것은 과적 합의 정도가 아니라 모형의 표본 외 예측력입니다. 초과 적합 모델 (즉, 표본 외부보다 샘플 내에서 훨씬 더 잘 작동하는 모형)은 초과 적합하지 않은 모델보다 표본 외부 성능이 더 우수 할 수 있습니다. 나는 참고 문헌이 없지만 CNN과 같은 복잡한 모델을 사용할 때 컴퓨터 비전과 같은 복잡한 도메인에서 종종 그렇습니다.
rinspy

답변:


10

여러분이 제시 한 점은 공정하지만 공개 리더 보드를 능가하는 사람들에게는 훨씬 더 실제적인 문제가 있다고 생각합니다 .

100을하거나 제출 있도록, 공공 테스트 세트는 결국 때이 문제가 발생할 수 있습니다 밖으로 피가 당신의 hyperparameter 선택에 따라서 overfit에. 그런 점에서 개인 리더 보드가 필요하다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.