기차, 검증 및 테스트 비율을 어떻게 결정합니까?


10

레이블이 지정된 데이터를 교육, 검증 및 테스트 세트로 분리 할 때 50/25/25에서 85/5/10까지 모든 것을 들었습니다. 나는 이것이 모델을 어떻게 사용할 것인지와 학습 알고리즘을 과도하게 맞추는 경향에 달려 있다고 확신합니다. 일반적으로 결정하는 방법이 있습니까? ELSII조차도 주제에 대해 모호한 것처럼 보입니다.


이 Stackoverflow Q & A에는 각각> 30 upvotes로 주제에 대한 두 가지 좋은 답변이 있습니다. stackoverflow.com/questions/13610074/…
Luke Singham

답변:


13

거대한 샘플이없는 경우 (예 : ) 가 아니라면 리샘플링없이 샘플 분할 유효성 검사 (교차 유효성 검증 또는 더 나은 : 부트 스트랩)를 신뢰할 수 없습니다 . 모든 모델 선택 단계를 프로그래밍하여 각 부트 스트랩 루프에서 반복 할 수 있다고 가정하면 부트 스트랩을 사용한 엄격한 내부 검증이 일반적으로 선호됩니다. 변동성 외에도 분할 샘플 접근법의 문제점 중 하나는 분할 분수를 선택하는 것이 어렵다는 것입니다.>20000


그리고 10000 <N <1000000의 더 큰 규모의 데이터 (큰 데이터는 아님)에서 작업하는 경우 어떻게해야합니까? 이 시점에서 분할이 합리적으로 보입니다. 이것은 내가 직면 한 많은 상황에 맞습니다.
Ed Fine

꽤 합리적 일 수 있습니다.
Frank Harrell

나는 N = 95,000,000입니다 (9,500,000 세트를 유지하십시오). 실험을 10 배 반복 할 필요가 없다는 참고 자료는 어디에 있습니까?
dranxo

2
두 번만 실행하면 (2 스플릿) 결과가 얼마나 달라지는 지 알게됩니다. 그것들은 아마도 너무 작아서 하나의 분할 만 필요합니다. 그러한 큰 표본 크기에 비례하는 신뢰 구간의 너비를 생각해보십시오.
Frank Harrell


3

물론 (더블) 리샘플링에 대한 분할 비율을 결정해야합니다 ...

그러나 리샘플링은 일반적으로 명심할 경우 상당히 넓은 범위의 분할 비율에서 작동합니다.

  • 가능한 개별 실행 횟수를 줄일 수있는 경우 일회성 휴가를하지 마십시오.
  • traing 알고리즘이 유용한 모델을 생성 할 수있는 적절한 기회를 갖도록 충분한 훈련 사례를 가장 안쪽 훈련 세트에 남겨 두십시오.
  • 독립적 인 사례가 많을수록 이러한 고려 사항이 덜 중요합니다.

그리고 10000 <N <1000000의 더 큰 규모의 데이터 (큰 데이터는 아님)에서 작업하는 경우 어떻게해야합니까?

리샘플링이 필요한지 확실하지 않은 경우 수행 할 수있는 작업은 몇 번입니다. 리샘플링이 필요한지 여부를 측정 할 수 있습니다.

  • 예측의 안정성을 확인하십시오
  • 모델 파라미터의 안정성 확인

이러한 결과를 통해 리샘플링 반복을 더 추가해야하는지 또는 상황이 양호한지를 결정할 수 있습니다.


2

이에 대한 단단하고 빠른 규칙은 없습니다. 그러나 경험적 분석에 따르면 훈련 데이터가 많을수록 정확도가 높아집니다. 그러나 무엇을 하든지 모든 교육 / 검증 / 테스트 데이터를 함께 모으고 포장 할 때 10 배 CV를 수행하는 것을 잊지 마십시오. 이를 통해 실험 중 과적 합 / 부적합 문제가 발생하는 것에 대한 훌륭한 통찰력을 얻을 수 있습니다.


1

나는 당신이 대답하려는 질문에 모두 중요하다고 생각합니다. 여러 알고리즘 간의 성능 차이에 대한 정확한 관점에 관심이 있습니까? 그런 다음 상당히 큰 유효성 검사 세트가 필요합니다. N = 10000 샘플의 알고리즘 성능에 관심이 있습니까? 그런 다음 기차 세트에 최소 10000 개의 샘플을 넣어야합니다.

검증 세트가 클수록 결과에 대한 통계적 확실성이 높아지지만 확실성은 더 적은 수의 샘플에 대해 훈련 된 알고리즘의 성능에 관한 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.