Kaggle 대회가 우연히 이겼습니까?

캐글 대회는 개최 테스트 세트를 기반으로 최종 순위를 결정합니다.

보류 된 테스트 세트는 샘플입니다. 모델링되는 모집단을 대표하지 않을 수도 있습니다. 각 제출은 가설과 같으므로 경쟁에서이긴 알고리즘은 우연히 테스트 세트를 다른 것보다 더 잘 일치시킬 수 있습니다. 다시 말해, 다른 테스트 세트가 선택되고 경쟁이 반복되는 경우 순위는 동일하게 유지됩니까?

후원 회사의 경우 이는 중요하지 않습니다 (아마도 상위 20 개 제출물이 기준을 개선 할 것임). 아이러니하게도, 그들은 다른 상위 5 개보다 나쁜 1 순위 모델을 사용하게 될 수 있습니다 . 그러나 경쟁 참가자에게는 Kaggle이 궁극적으로 우연의 게임 인 것처럼 보입니다. 적절한 솔루션을 우연히 발견하기 위해 행운이 필요하지 않으며 테스트 세트와 일치하는 것을 우연히 발견해야합니다!

통계적으로 구별 할 수없는 모든 최고 팀이 승리하도록 경쟁을 바꿀 수 있습니까? 아니면이 그룹에서 가장 포용 적이거나 계산적으로 저렴한 모델이 이길 수 있습니까?

— 사용자 0
소스

일부 사람들은 숨겨진 테스트에서 테스트를 사용하여 실제 테스트 값을 제거합니다. 이를 통해 결과를 거의 완벽하게 맞출 수 있습니다. 홀드 아웃이이를 방지합니다. 내 개인적인 견해는 유인물과 비유 인물 사이의 차이점은 사기꾼을 제거하는 것에 관한 것입니다.

— EngrStudent

물론 테스트 데이터는 참가자들로부터 제공되어야하지만, 단일 홀드 아웃 테스트 세트를 갖는 것이 경쟁 결과 (최고 팀)가 기본적으로 우연에 의존 하는지 궁금합니다 .

X

$X$

— user0

점수가 가중됩니다. 훌륭한 시스템은 거의 매번 정크를 능가 할 것입니다. 마지막 작업이 먼저 이루어 지려면 너무 많은 작업이 실패합니다. 참여자가 재 샘플링 된 경우 수천 명의 참가자가있을 때 순위가 10 단계 이하인 로컬 순서가 변경됩니다. 이것을 보여주기 위해 수치 실험을 할 수 있습니다.

— EngrStudent

후원 회사의 관점에서, 그들은 실제로 우승 모델을 구현하도록 강요되지 않습니다. 내가 넷플릭스 도전에서이긴 모델을 올바르게 기억한다면 결코 구현되지 않았습니다. 그들은 최고의 모델 중에서 몇 가지 신뢰할만한 후보자를 취하고 더 테스트 할 수 있습니다.

— David Ernst

답변:

네, 당신의 추론은 정확합니다. 다른 테스트 세트를 선택하고 경쟁을 반복하면 순위가 실제로 변경됩니다. 다음 예를 고려하십시오. 이진 레이블을 가진 Kaggle 경쟁에 대한 모든 항목은 출력을 예측하기 위해 무작위로 (그리고 독립적으로) 추측합니다. 우연히, 그들 중 하나는 예측이 진행되지 않더라도 다른 사람들보다 홀드 아웃에 동의 할 것입니다.

이것은 약간 고안된 것이지만, 우리는 각 제출 모델의 차이가 많은 항목을 적용하면 실제로 홀드 아웃 세트의 소음에 적합하다는 것을 알 수 있습니다. 이것은 (개별 모델 분산에 따라) 최상위 N 모델이 동일하게 일반화 될 수 있음을 알려줍니다. 이것은 "연구자"가 동일하지 않다는 것을 제외하고는 갈래 길 의 정원입니다 .

테스트 세트에서 최고 성과와 통계적으로 구별 할 수없는 모든 팀이 승리 할 수 있도록 경쟁을 변경할 수 있습니까?

과연.

실용적이지 않은 한 가지 접근법은 각 항목에서 주어진 모델의 분산을 명시 적으로 해결하는 것입니다.
많은 계산이 필요할 수있는 다른 접근 방식은 모든 모델에 교육 및 테스트 API를 노출시켜 홀드 아웃 성능에서 CI를 부트 스트랩하는 것입니다.

— VF1
소스

좋은 대답입니다. 두 가지 방법을 어떻게 구현할 수 있는지 자세히 설명해 주시겠습니까?

— user0

흥미 롭습니다. 실제로 최고의 모델은 승리 한 팀이 아닐 수도 있습니다.

— user0

데이터 분산이 없으면 명시 적으로 분산을 계산할 수 없습니다 (이론을 설명하기 때문에 언급 할뿐). 이 백서 에서는 부트 스트랩 및 교차 검증을 포함하여 정확도 추정을위한 몇 가지 방법 (및 실패한 위치)에 대해 설명합니다. 그러나 본 문서와는 달리,이 맥락에서 우리는 훈련 세트에서 모델 선택을 위해 CV를 수행하지 않고 결합 된 훈련 및 테스트 데이터 세트에서 강력한 "점수"를 수행하고 있습니다.

— VF1

아마도 두 라운드는 강력한 승자 추정에 더 좋습니다. 첫 번째는 최악의 99 %를 제거하고 두 번째 라운드는 순위를 다시 추정하여 순서를 "고정"합니다.

— EngrStudent

여기에 아이디어를 추가하려면 2014 년 NCAA March Madness Kaggle 공모전 수상자 가이 백서 를 확인하십시오 . 섹션 4, "시뮬레이션 스터디"로 스크롤하십시오. 그들의 시뮬레이션에 따르면, 각각의 매치업에 대한 모델의 예측 확률이 실제로 자연 상태라면, 그들의 중간 위치는 11 위가 될 것입니다.

— klumbard

Kaggle에는 다른 유형의 경쟁이 있지만 기회 요소는 없습니다. 예를 들어, Stanta의 Stolen Sleigh 입니다.

개별 최적화 문제이며 개인 리더 보드도 없습니다. 공개 리더 보드에 표시되는 것은 최종 결과입니다.

많은 사람들이 쉽게 시작할 수있는지도 학습과 비교할 때 이러한 유형의 경쟁은 본질적으로 "어려워"입니다.

— 하이 타오 뒤
소스