편차-분산 트레이드 오프 파생 이해


20

난의 편향 - 분산 트레이드 오프의 제 판독하고 통계적 학습 요소 되도록 상기 데이터 모델에서 발생하자 I은 29 페이지의 식 의심이 여기서 무작위 예상 값이 이고 분산 입니다. 모델의 예상 오차 값을 여기서 는 학습자 의 에 대한 예측입니다 . 책에 따르면 오류는

Y=f(x)+ϵ
ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

내 질문은 왜 바이어스 용어가 0이 아닌가? 오류 공식을 개발 중

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

로 독립적 난수이다ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

내가 어디 틀렸어?

답변:


20

당신은 틀리지 않았지만 이래로 한 단계에서 오류가 발생했습니다 . 는 .E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

참고 :E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


이진 결과의 경우 오류 측정 값으로 교차 엔트로피가있는 동등한 증거가 있습니까?
emanuele

1
이진 응답으로는 잘 작동하지 않습니다. "통계 학습의 요소"제 2 판의 예 7.2를 참조하십시오.
Matthew Drury

3
당신이에서 이동 당신은 어떻게 설명 할 수 ~ ? E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine

16

바이어스의 몇 가지 단계-분산 분해

실제로, 전체 유도는 많은 영감을받지 않는 대수를 포함하므로 교과서에는 거의 제공되지 않습니다. 다음은 223 페이지의 "통계학 학습 요소" 책의 표기법을 사용한보다 완전한 파생입니다.


우리가 가정하면 그 및 및 우리가 회귀 적합 예상 예측 에러에 대한 식을 유도 할 수있다 제곱 오차 손실을 사용하여 입력 에서Y=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

편의상 들어 보자 , 및 호출이 및f^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

라는 용어에 대해 위와 유사한 방법을 사용하여 를 더하고 빼서E[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

함께 모으기

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


왜 대한 의견E[f^Y]=fE[f^]

Alecos 파파도풀로스에서 촬영 여기

는 우리가 데이터 포인트 기반으로 구성한 예측 변수 임을 기억 하십시오 그래서 우리는이 를 기억하기 위해 을 쓸 수 있습니다 .f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

반면 는 위의 데이터 포인트 에 구성된 모델을 사용하여 새로운 데이터 포인트 에 대해 예측 한 것입니다. 평균 제곱 오차는 다음과 같이 쓸 수 있습니다.Y(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

이전 섹션에서 방정식 확장

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

방정식의 마지막 부분은

E[f^m(x(m+1))ϵ(m+1)]=0

우리는 점에 대해 다음과 같이 가정합니다 .x(m+1)

  • 그것은 한 하지 구성 할 때 사용하는f^m
  • 다른 모든 관측 값과는 독립적입니다.{(x(1),y(1)),...,(x(m),y(m))}
  • 무관합니다.ϵ(m+1)

완전한 파생을 가진 다른 소스


1
왜 입니까? 이 본질적으로 사용하여 구성 되므로 와 이 독립적 이라고 생각하지 않습니다 . E[f^Y]=fE[f^]Yf^f^Y
Felipe Pérez

5
그러나이 문제는, 본질적으로 동일한 이유 ? 의 임의성 F는 오류에서 오는 ε 내가 왜 것 보지 않도록 Fε 독립, 따라서, E ( F ε ) = 0 . E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
Felipe Pérez

당신의 전제에서 샘플 내 대 샘플 관점이 중요합니다. 너무? 표본만으로 작업 한 경우 잔류 편차 편차 트레이드 오프가 사라짐에 따라 를 참조하십시오 . ϵ
markowitz

1
@ FelipePérez 지금까지 내가 이해의 임의성으로 f를 (포인트 트레이닝 세트에서 종료 및 준 기차 테스트 분할에서 오는 F 훈련 예측 등을). 즉,의 분산 f를 우리가 훈련 세트로 걸릴 수 주어진 고정 된 데이터 세트의 가능한 모든 부분 집합에서 온다. 데이터 세트가 고정되어 있기 때문에, 거기에는 난수의 유입되지 ε 따라서 그리고 f를ε는 독립적이다. f^f^f^ϵf^ϵ
Alberto Santini
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.