MNIST 데이터 세트 분류에 대한 문제점을 고려해 봅시다.
Yann LeCun의 MNIST 웹 페이지 에 따르면 'Ciresan et al.' Convolutional Neural Network를 사용하여 MNIST 테스트 세트에서 0.23 % 오류율을 얻었습니다.
MNIST 교육 세트를 , MNIST 테스트 세트를 , 을 로 사용하여 얻은 최종 가설 및 을 사용하여 MNIST 테스트 세트에 대한 오류율 을 입니다. D t e s t D t r a i n h 1 h 1 E t e s t ( h 1 ) = 0.0023
그들의 관점에서, 는 h_ {1}에 관계없이 입력 공간에서 무작위로 샘플링 된 테스트 세트 이기 때문에 최종 가설 E_ {out} (h_ {1})의 샘플 외부 오차 성능 은 다음과 같습니다. Hoeffding의 불평등
여기서 .
즉, 적어도 확률 ,
다른 견해를 고려해 봅시다. 어떤 사람이 MNIST 테스트 세트를 잘 분류하려고한다고 가정하십시오. 그는 먼저 Yann LeCun의 MNIST 웹 페이지 를보고 8 명의 다른 모델을 사용하는 다른 사람들이 얻은 다음과 같은 결과를 찾았습니다.
8 가지 모델 중 MNIST 테스트에서 가장 잘 수행 된 모델 를 선택했습니다 .
그에게 학습 과정은 가설 세트 H_ {trained} = \ {h_1, h_2, .., h_8 \} 에서 테스트 세트 D_ {test} 에서 가장 잘 수행 된 가설 를 선택했습니다 .
따라서 테스트 세트 의 오류는이 학습 프로세스에서 '샘플 내'오류이므로 유한 가설 세트에 대한 VC 바운드를 다음과 같은 부등식으로 적용 할 수 있습니다. P [ | E o u t ( g ) − E i n ( g ) | < ϵ ] ≥ 1 − 2 | H t r a i n e d | e 2 ϵ 2 N t e s t
즉, 적어도 확률 ,
이 결과는 모델이 여러 모델 중에서 가장 잘 수행되도록 선택하면 테스트 세트에 과적 합이있을 수 있음을 의미합니다.
이 경우, 가장 낮은 오류율 선택할 수 있습니다 . 이후 이 특정 테스트 세트에 8 개 모델 중 가장 가설 , 몇 가지 가능성이있을 수 MNIST 테스트 세트에 과다 적합 가설입니다.
따라서이 사람은 다음과 같은 불평등을 주장 할 수 있습니다.
결과적으로 두 개의 부등식 및 .
그러나이 두 불평등은 양립 할 수 없음이 분명합니다.
내가 뭘 잘못하고 있니? 어느 것이 옳고 어느 것이 옳습니까?
후자가 틀린 경우,이 경우 유한 가설 세트에 대해 VC를 적용하는 올바른 방법은 무엇입니까?