바이어스의 몇 가지 단계-분산 분해
실제로, 전체 유도는 많은 영감을받지 않는 대수를 포함하므로 교과서에는 거의 제공되지 않습니다. 다음은 223 페이지의 "통계학 학습 요소" 책의 표기법을 사용한보다 완전한 파생입니다.
우리가 가정하면 그 및 및 우리가 회귀 적합 예상 예측 에러에 대한 식을 유도 할 수있다 제곱 오차 손실을 사용하여 입력 에서Y=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵf^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
편의상 들어 보자 , 및 호출이 및f^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
라는 용어에 대해 위와 유사한 방법을 사용하여 를 더하고 빼서E[(f−f^)2]E[f^]
E[(f−f^)2]=E[(f+E[f^]−E[f^]−f^)2]=E[f−E[f^]]2+E[f^−E[f^]]2=[f−E[f^]]2+E[f^−E[f^]]2=Bias2[f^]+Var[f^]
함께 모으기
E[(Y−f^)2]=σ2ϵ+Bias2[f^]+Var[f^]
왜 대한 의견E[f^Y]=fE[f^]
Alecos 파파도풀로스에서 촬영 여기
는 우리가 데이터 포인트 기반으로 구성한 예측 변수 임을 기억 하십시오 그래서 우리는이 를 기억하기 위해 을 쓸 수 있습니다 .f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m
반면 는 위의 데이터 포인트 에 구성된 모델을 사용하여 새로운 데이터 포인트 에 대해 예측 한 것입니다. 평균 제곱 오차는 다음과 같이 쓸 수 있습니다.Y(x(m+1),y(m+1))m
E[f^m(x(m+1))−y(m+1)]2
이전 섹션에서 방정식 확장
E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]
방정식의 마지막 부분은
E[f^m(x(m+1))⋅ϵ(m+1)]=0
우리는 점에 대해 다음과 같이 가정합니다 .x(m+1)
- 그것은 한 하지 구성 할 때 사용하는f^m
- 다른 모든 관측 값과는 독립적입니다.{(x(1),y(1)),...,(x(m),y(m))}
- 무관합니다.ϵ(m+1)
완전한 파생을 가진 다른 소스