레이블이 지정된 데이터를 교육, 검증 및 테스트 세트로 분리 할 때 50/25/25에서 85/5/10까지 모든 것을 들었습니다. 나는 이것이 모델을 어떻게 사용할 것인지와 학습 알고리즘을 과도하게 맞추는 경향에 달려 있다고 확신합니다. 일반적으로 결정하는 방법이 있습니까? ELSII조차도 주제에 대해 모호한 것처럼 보입니다.
레이블이 지정된 데이터를 교육, 검증 및 테스트 세트로 분리 할 때 50/25/25에서 85/5/10까지 모든 것을 들었습니다. 나는 이것이 모델을 어떻게 사용할 것인지와 학습 알고리즘을 과도하게 맞추는 경향에 달려 있다고 확신합니다. 일반적으로 결정하는 방법이 있습니까? ELSII조차도 주제에 대해 모호한 것처럼 보입니다.
답변:
거대한 샘플이없는 경우 (예 : ) 가 아니라면 리샘플링없이 샘플 분할 유효성 검사 (교차 유효성 검증 또는 더 나은 : 부트 스트랩)를 신뢰할 수 없습니다 . 모든 모델 선택 단계를 프로그래밍하여 각 부트 스트랩 루프에서 반복 할 수 있다고 가정하면 부트 스트랩을 사용한 엄격한 내부 검증이 일반적으로 선호됩니다. 변동성 외에도 분할 샘플 접근법의 문제점 중 하나는 분할 분수를 선택하는 것이 어렵다는 것입니다.
응용 프로그램에 따라 불확실성을 건너 뛰고 대신 부트 스트랩을 사용할 수 있습니다.
위키 : http://en.wikipedia.org/wiki/Bootstrapping_ (통계)
관련 질문은 여기입니다. 검증 및 모델 선택을위한 부트 스트랩 이해
물론 (더블) 리샘플링에 대한 분할 비율을 결정해야합니다 ...
그러나 리샘플링은 일반적으로 명심할 경우 상당히 넓은 범위의 분할 비율에서 작동합니다.
그리고 10000 <N <1000000의 더 큰 규모의 데이터 (큰 데이터는 아님)에서 작업하는 경우 어떻게해야합니까?
리샘플링이 필요한지 확실하지 않은 경우 수행 할 수있는 작업은 몇 번입니다. 리샘플링이 필요한지 여부를 측정 할 수 있습니다.
이러한 결과를 통해 리샘플링 반복을 더 추가해야하는지 또는 상황이 양호한지를 결정할 수 있습니다.