예상되는 예측 오류-도출


20

특히 2.11 및 2.12의 유도 (컨디셔닝, 포인트 단위 최소 단계)에 따라 아래의 예상 예측 오류 (ESL)의 도출을 이해하는 데 어려움을 겪고 있습니다. 모든 포인터 또는 링크는 대단히 감사합니다.

아래는 ESL pg에서 발췌 한 내용입니다. 처음 두 방정식은 순서대로 방정식 2.11과 2.12입니다.


하자 실제 값 랜덤 입력 벡터와 나타내고 조인트 분포와 실제 평가 된 임의의 출력 변수 . 입력 XY 주어진 값 을 예측하기위한 함수 를 찾습니다 . 이 이론은 예측 오류를 페널티 하기 위해 손실 함수 L (Y, f (X))를 필요로하며, 가장 일반적이고 편리한 제곱 오류 손실입니다 . L (Y, f (X)) = (Yf (X)) ^ 2 . 이는 f 를 선택하는 기준으로 이어집니다 .XRpYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

예상 (제곱) 예측 오류 X 컨디셔닝하여 EPE를 다음과 같이 쓸 수 있습니다.

EPE(f)=EXEY|X([Yf(X)]2|X)

우리는 EPE를 포인트 단위로 최소화하면 충분하다는 것을 알았습니다.

f(x)=argmincEY|X([Yc]2|X)

해결책은

f(x)=E(Y|X=x)

회귀 함수 라고도하는 조건부 기대


총 기대 법칙 에 관한 Wikipedia 기사의 첫 번째 방정식에서 와 를 교환 하면 (2.9)와 (2.11)이 같습니다. 증거를 보려면 해당 기사를 읽으십시오. (2.12)는 EPE를 최소화하기 위해 가 선택되어야 한다는 것을 이해하면 즉각적 이다. Y fXYf
whuber


2
이 책을 읽는 사람들을 위해,이 체크 아웃 포괄적 인 메모를 Weathermax와 엡스타인에 의해
Dodgie

@Dodgie 그 링크는 죽었다 : (
Matthew Drury

2
-) @MatthewDrury 다행히 "Weathermax와 엡스타인 통계"의 인터넷 검색 A는 최초의 결과로 링크를 반환 waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

답변:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
나는 당신이 쓴 것을 이해하지만 질문에 표시된 파생으로 인해 OP가 혼란 스럽다면 귀하의 답변을 이해할 것이라고 생각하십니까? 물론, 나는 그 질문에 나타난 파생물을 이미 이해했습니다.
Mark L. Stone

나는 같은 질문으로 Google에서 여기에 왔으며 실제로이 파생물이 내가 필요한 것임을 정확히 발견했습니다.
세미콜론과 덕트 테이프

1
@ MarkL.Stone-이것은 어리석은 질문 일 수 있지만 와 그것이 가되는 방법을 설명 할 수 있습니까? 덕분에 무리p ( x , y ) d x d yPr(dx,dy)p(x,y)dxdy
자비에 BOURRET Sicotte

1
전자가 의미하는 것은 후자입니다. dP (x, y) 또는 dF (x, y)를 대신 사용하는 것이 더 일반적이라고 생각합니다. 1D에서 종종 f (x) dx를 의미하는 dF (x)를 볼 수 있습니다. 여기서 f (x)는 확률 밀도 함수이지만, 표기법은 이산 확률 질량 함수 (요약) 또는 연속 밀도와 불연속 확률 질량.
Mark L. Stone

(마지막 공식) 라고 말하는 것이 더 정확하지 않습니까? EX(EY|X([Yf(X)]2|X=x))
D1X

11

식 (2.11)은 다음과 같은 작은 평등의 결과입니다. 임의의 두 변수 및 및 모든 함수Z 2 gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

표기법 은 공동 분포에 대한 기대치 입니다. 표기법 은 본질적으로 " 가 고정 된 것처럼 의 조건부 분포에 대해 적분 "이라고 표시합니다. E Z 1Z 2 Z 1 Z 2EZ1,Z2EZ1Z2Z1Z2

과 가 관련 정의를 풀기 만하면 불연속 랜덤 변수 인 경우이를 쉽게 확인할 수 있습니다.Z 2Z1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

연속적인 사건은이 논증의 한계로 비공식적으로 보거나, 모든 측정 이론적 도파가 정해지면 공식적으로 검증 될 수있다.

응용 프로그램을 해제하려면 , 및 취하십시오 . 모든 것이 정확하게 정렬됩니다.Z 2 = X g ( x , y ) = ( y f ( x ) ) 2Z1=YZ2=Xg(x,y)=(yf(x))2

주장 (2.12)은 최소화를 고려하도록 요구한다

EXEYX(Yf(X))2

여기서 원하는대로 를 자유롭게 선택할 수 있습니다 . 다시 개별 케이스에 초점을 맞추고 위의 풀림에 반쯤 떨어지면 우리는 최소화하고 있음을 알 수 있습니다f

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

큰 괄호 안에있는 모든 것은 음이 아니며, 소환자를 개별적으로 최소화하여 음이 아닌 양의 합계를 최소화 할 수 있습니다. 문맥 상 이것은 최소화하기 위해 를 선택할 수 있다는 것을 의미합니다f

y(yf(x))2Pr(Y=yX=x)

각 이산 값 에 대해 개별적으로 . 이것은 ESL이 주장하는 내용의 내용이며, 더 멋진 표기법으로 만 제공됩니다.x


8

이 책의 일부는 이해하기 어려운 방식으로 표현되며, 특히 통계에 대한 배경 지식이없는 사람들에게 유용합니다.

나는 그것을 간단하게 만들려고 노력하고 당신이 혼란을 제거 할 수 있기를 바랍니다.

청구 1 (평활) E(X)=E(E(X|Y)),X,Y

증명 : E (Y)는 상수이지만 E (Y | X)는 X에 따라 임의의 변수입니다.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

청구 2 :E(Yf(X))2E(YE(Y|X))2,f

증명 :

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

위의 방정식의 양쪽을 모두 기대하면 주장 2 (QED)가됩니다.

따라서 최적의 f는f(X)=E(Y|X)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.