낙관적 편견-예측 오차 추정


9

통계 학습의 요소 (PDF 온라인에서 사용 가능)는 낙관적 편견 (229 페이지 7.21)에 대해 설명합니다. 낙관주의 편견은 훈련 오류와 표본 내 오류 (각 원래 훈련 지점에서 새로운 결과 값을 샘플링 할 경우 관찰되는 오류)의 차이 (아래 참조)입니다.

여기에 이미지 설명을 입력하십시오

다음으로이 낙관주의 편견 (ω)는 추정 된 y 값과 실제 y 값 (아래 수식)의 공분산과 같습니다. 이 공식이 낙관주의 편향을 나타내는 이유를 이해하는 데 어려움이 있습니다. 순진하게 나는 실제 와 예측 된 사이의 강한 공분산이 단지 낙관론이 아니라 정확성을 설명 한다고 생각했을 것 입니다. 누군가가 공식의 도출을 돕거나 직감을 공유 할 수 있는지 알려주십시오. y와이

여기에 이미지 설명을 입력하십시오


매우 도움이되었습니다. 감사합니다! 방정식 중 하나에 작은 오타가 있다고 생각합니다.=1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])
Sleepster

답변:


8

직감부터 시작합시다.

사용하는 데 아무런 문제가 없습니다 yi 예측하기 y^i. 실제로 사용하지 않으면 소중한 정보를 버리고 있습니다. 그러나 우리가 포함하는 정보에 더 의존 할수록yi우리의 예측을 생각해 내기 위해, 우리의 견적자가 지나치게 낙관적 일 것입니다.

하나의 극단적 인 경우 y^i 그냥 yi, 샘플 예측이 완벽합니다 (R2=1)이지만 샘플 외부 예측이 나쁠 것이라고 확신합니다. 이 경우 (자신이 쉽게 확인할 수 있음) 자유도는df(y^)=n.

다른 극단적 인 경우, 표본 평균을 사용하면 y: yi=yi^=y¯ 모든 i그러면 자유도가 1이됩니다.

이 직관에 대한 자세한 내용은 Ryan Tibshirani의 멋진 유인물을 확인하십시오.


이제 다른 답변과 비슷한 증거이지만 약간 더 자세한 설명이 있습니다.

정의에 따르면 평균 낙관론은 다음과 같습니다.

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

이제 2 차 손실 함수를 사용하고 제곱 항을 확장하십시오.

=Ey(1Ni=1NEY0[(Yi0y^i)2]1Ni=1N(yiy^i)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

사용하다 EyEY0[(Yi0)2]=Ey[yi2] 교체:

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

끝내려면 Cov(x,w)=E[xw]E[x]E[w]결과는 다음과 같습니다.

=2Ni=1NCov(yi,y^i)

5
나는 그의 이름 철자가 지적해야한다 "라이언 Tibshirani"롭 Tibshirani
로버트 팁쉬 라니

2
저희 사이트에 오신 것을 환영합니다. Rob-- 오류를 수정하는 경우에만 귀하를 여기에 두는 것이 특권입니다! 더 이상 보이면 알려주십시오. 물론 우리는 귀하 (또는 귀하의 학생)가 게시하고자하는 모든 답변에 기뻐할 것입니다. 귀하의 작업은이 사이트, 특히 ESL부트 스트랩 입문에서
whuber

설명하는 마음 EyEY0[(Yi0)2]=Ey[yi2]? 도2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]?
Shookie

7

허락하다 f^(xi)=y^i그런 다음

ω=Ey[op]=Ey[Errinerr¯]=Ey[Errin]Ey[err¯]=Ey[1Ni=1NEY0[L(Yi0,f^(xi))]Ey[1Ni=1NL(yi,f^(xi))]=1Ni=1NEyEY0[(Yi0y^i)2]Ey[(yiy^i)2]=1Ni=1NEyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=1Ni=1NEy[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=2Ni=1NEy[yiy^i]Ey[yi]Ey[y^i]=2Ni=1NEy[yiy^iyiEy[y^i]Ey[yi]y^i+Ey[yi]Ey[y^i]]=2Ni=1NEy[(y^iEy[y^i])([yiEy[yi])]=2Ni=1Ncov(y^i,yi)
Q.E.D.

1
The last four steps can be simplified by this property of covariance: E[xw]E[x]E[w]=Cov(x,w)
cd98
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.