통계 학습 이론에서 테스트 세트에 과적 합의 문제가 있습니까?


16

MNIST 데이터 세트 분류에 대한 문제점을 고려해 봅시다.

Yann LeCun의 MNIST 웹 페이지 에 따르면 'Ciresan et al.' Convolutional Neural Network를 사용하여 MNIST 테스트 세트에서 0.23 % 오류율을 얻었습니다.

MNIST 교육 세트를 , MNIST 테스트 세트를 , 을 로 사용하여 얻은 최종 가설 및 을 사용하여 MNIST 테스트 세트에 대한 오류율 을 입니다. D t e s t D t r a i n h 1 h 1 E t e s t ( h 1 ) = 0.0023아르 자형나는이자형에스아르 자형나는h1h1Etest(h1)=0.0023

그들의 관점에서, Dtesth_ {1}에 관계없이 입력 공간에서 무작위로 샘플링 된 테스트 세트 h1이기 때문에 최종 가설 E_ {out} (h_ {1})의 샘플 외부 오차 성능 Eout(h1)은 다음과 같습니다. Hoeffding의 불평등

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

여기서 Ntest=|Dtest|.

즉, 적어도 확률 1δ ,

Eout(h1)Etest(h1)+12Ntestln2δ

다른 견해를 고려해 봅시다. 어떤 사람이 MNIST 테스트 세트를 잘 분류하려고한다고 가정하십시오. 그는 먼저 Yann LeCun의 MNIST 웹 페이지 를보고 8 명의 다른 모델을 사용하는 다른 사람들이 얻은 다음과 같은 결과를 찾았습니다.

MNIST 분류 결과

8 가지 모델 중 MNIST 테스트에서 가장 잘 수행 된 모델 g 를 선택했습니다 .

그에게 학습 과정은 가설 세트 H_ {trained} = \ {h_1, h_2, .., h_8 \} 에서 테스트 세트 D_ {test} 에서 가장 잘 수행 된 가설 를 선택했습니다 .이자형에스H아르 자형나는이자형={h1,h2,..,h8}

따라서 테스트 세트 의 오류는이 학습 프로세스에서 '샘플 내'오류이므로 유한 가설 세트에 대한 VC 바운드를 다음과 같은 부등식으로 적용 할 수 있습니다. P [ | E o u t ( g ) E i n ( g ) | < ϵ ] 1 2 | H t r a i n e d | e 2 ϵ 2 N t e s t이자형이자형에스()

[|이자형영형()이자형나는()|<ϵ]12|H아르 자형나는이자형|이자형2ϵ2이자형에스

즉, 적어도 확률 , 1δ

이자형영형()이자형이자형에스()+12이자형에스2|H아르 자형나는이자형|δ

이 결과는 모델이 여러 모델 중에서 가장 잘 수행되도록 선택하면 테스트 세트에 과적 합이있을 수 있음을 의미합니다.

이 경우, 가장 낮은 오류율 선택할 수 있습니다 . 이후 이 특정 테스트 세트에 8 개 모델 중 가장 가설 , 몇 가지 가능성이있을 수 MNIST 테스트 세트에 과다 적합 가설입니다.h1이자형이자형에스(h1)=0.0023h1이자형에스h1

따라서이 사람은 다음과 같은 불평등을 주장 할 수 있습니다.

이자형영형(h1)이자형이자형에스(h1)+12이자형에스2|H아르 자형나는이자형|δ

결과적으로 두 개의 부등식 및 .

[이자형영형(h1)이자형이자형에스(h1)+12이자형에스2δ]1δ
[이자형영형(h1)이자형이자형에스(h1)+12이자형에스2|H아르 자형나는이자형|δ]1δ

그러나이 두 불평등은 양립 할 수 없음이 분명합니다.

내가 뭘 잘못하고 있니? 어느 것이 옳고 어느 것이 옳습니까?

후자가 틀린 경우,이 경우 유한 가설 세트에 대해 VC를 적용하는 올바른 방법은 무엇입니까?

답변:


1

이 두 불평등 가운데, 나는 나중에 잘못되었다고 생각합니다. 간단히 말해서, 여기서 잘못된 점은 가 테스트 데이터의 함수이고 이 테스트 데이터와 독립적 인 모델 인 경우 입니다.=h1h1

실제로 는 테스트 세트 를 가장 잘 예측하는 의 8 가지 모델 중 하나입니다 .H아르 자형나는이자형={h1,h2,...,h8}이자형에스

따라서 는 의 함수입니다 . 특정 테스트 세트 (예 : 언급 한 것과 같음) 일 수 있지만 일반적으로 테스트 세트에 따라 는 값을 가질 수 있습니다 . 반면 은 값 중 하나 입니다 .이자형에스이자형에스(이자형에스)=h1(이자형에스)H아르 자형나는이자형h1H아르 자형나는이자형

다른 질문 :

후자가 틀린 경우,이 경우 유한 가설 세트에 대해 VC를 적용하는 올바른 방법은 무엇입니까?

를 로 않으면 올바른 범위 (예 : )를 다른 범위 ( ) 와 충돌하지 않습니다 .h1h1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.