모델을 대규모 데이터 세트에 맞추려고 할 때 일반적인 조언은 데이터를 교육, 검증 및 테스트 데이터 세트의 세 부분으로 분할하는 것입니다.
이는 일반적으로 모델에 세 가지 "수준"매개 변수가 있기 때문입니다. 첫 번째 "매개 변수"는 모델 클래스 (예 : SVM, 신경망, 임의 포리스트)이고 두 번째 매개 변수 세트는 "규정 화"매개 변수 또는 "하이퍼 매개 변수"( 예를 들어 올가미 페널티 계수, 커널 선택, 신경망 구조) 및 세 번째 세트는 일반적으로 "매개 변수"(예 : 공변량에 대한 계수)로 간주됩니다.
모델 클래스와 하이퍼 파라미터의 선택이 주어지면 훈련 세트의 오류를 최소화하는 파라미터를 선택하여 파라미터를 선택합니다. 모델 클래스가 주어지면 검증 세트의 오류를 최소화하여 하이퍼 파라미터를 조정합니다. 테스트 세트에서 성능별로 모델 클래스를 선택합니다.
그러나 왜 더 많은 파티션이 아닌가? 하이퍼 파라미터를 두 그룹으로 나누고 "validation 1"을 사용하여 첫 번째에 맞추고 "validation 2"를 사용하여 두 번째에 맞출 수 있습니다. 또는 훈련 데이터 / 유효 데이터 분할의 크기를 조정될 하이퍼 파라미터로 취급 할 수도 있습니다.
이것은 이미 일부 응용 프로그램에서 일반적인 관행입니까? 최적의 데이터 파티셔닝에 대한 이론적 연구가 있습니까?