80/20이 흔히 파레토 (Pareto) 원칙 이라고하는 매우 일반적으로 발생하는 비율이라는 사실에 놀랄 것 입니다. 해당 비율을 사용하면 일반적으로 안전한 내기입니다.
그러나 사용하는 교육 / 검증 방법에 따라 비율이 변경 될 수 있습니다. 예를 들어 10 배 교차 검증을 사용하는 경우 각 접기마다 10 %의 검증 세트로 끝납니다.
훈련 세트와 검증 세트 사이의 적절한 비율이 무엇인지에 대한 연구가 있습니다 .
검증 세트를 위해 예약 된 패턴의 비율은 자유 조정 가능한 매개 변수 수의 제곱근에 반비례해야합니다.
결론적으로 그들은 공식을 지정합니다.
검증 세트 (v) 대 트레이닝 세트 (t) 크기 비율 v / t는 ln (N / h-max)와 같이 스케일링됩니다. 여기서 N은 인식기 패밀리 수이고 h-max는 해당 패밀리의 가장 복잡한 것입니다.
복잡성이 의미하는 바는 다음과 같습니다.
인식기의 각각의 패밀리는 VC- 치수 , 설명 길이, 조정 가능한 파라미터의 수, 또는 다른 복잡성 척도 와 관련 될 수도 있고 그렇지 않을 수도있는 복잡성을 특징 으로한다.
첫 번째 경험 법칙을 사용하면 (즉, 유효성 검사 세트는 사용 가능한 조정 가능한 매개 변수 수의 제곱근에 반비례해야 함) 32 개의 조정 가능한 매개 변수가있는 경우 32의 제곱근이 ~ 5.65이면 분수는 1 / 5.65 또는 0.177 (v / t). 대략 17.7 %는 검증 용으로, 82.3 %는 교육용으로 예약해야합니다.