더 큰 검증 세트는 샘플 외부 성능에 대한보다 정확한 추정치를 제공합니다. 그러나 알다시피, 어느 시점에서 예측이 필요한만큼 정확할 수 있으며 해당 지점에 도달하는 데 필요한 검증 샘플 크기에 대해 대략적인 예측을 할 수 있습니다.
간단한 정확 / 잘못된 분류 정확도를 위해 추정의 표준 오차를 √ 로 계산할 수 있습니다. (베르누이 변수의 표준 편차). 여기서p는 올바른 분류의 확률이고,n은 검증 세트의 크기입니다. 물론p는 모르지만 범위에 대한 아이디어가있을 수 있습니다. 예를 들어 60-80 %의 정확도를 기대하고 추정치의 표준 오차가 0.1 %보다 작길 원한다고 가정 해 봅시다.
√p(1−p)/n−−−−−−−−−√pnpn(유효성 검증 세트의 크기)은
얼마나 커야합니까? 를 들어P=0.6: 우리가 얻을
N> 0.6 - 0.6 (2)
p(1−p)/n−−−−−−−−−√<0.001
np=0.6
의 경우
P=0.8우리가 얻을 :
N>0.8-0.82n>0.6−0.620.0012=240,000
p=0.8
따라서 이것은 검증을 위해 5 백만 개의 데이터 샘플 중 5 % 미만을 사용하여 벗어날 수 있음을 알려줍니다. 더 높은 성능을 기대하거나 특히 샘플 외부 성능 추정치의 더 낮은 표준 오류에 만족하는 경우 (예 :
p=0.7및 se <1 %의 경우) 2100 개의 검증 샘플 만 있으면이 비율이 감소합니다. 또는 데이터의 20 % 미만).
n>0.8−0.820.0012=160,000
p=0.7
이러한 계산은 또한 Tim이 그의 대답에서 한 점을 보여줍니다. 추정의 정확성은 훈련 세트에 상대적인 크기가 아니라 검증 세트의 절대 크기 (즉, 에 따라 다름)에 있습니다.n
(또한 여기에서 대표 샘플링을 가정한다고 덧붙일 수 있습니다. 데이터가 매우 이질적인 경우 유효성 검사 데이터에 기차 및 테스트 데이터와 동일한 조건이 모두 포함되어 있는지 확인하기 위해 더 큰 유효성 검사 세트를 사용해야 할 수도 있습니다. )