최상의 예측 변수로서 조건부 기대 증명 문제


19

증명에 문제가 있습니다

E(Y|X)argming(X)E[(Yg(X))2]

이는 기대와 조건부 기대에 대한 더 깊은 오해를 드러 낼 가능성이 높습니다.

내가 아는 증거는 다음과 같습니다 (이 증거의 다른 버전은 여기 에서 찾을 수 있습니다 )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

그런 다음 증명은 일반적으로 2E[(YE(Y|X))(E(Y|X)g(X))]=0 이므로

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

g (X) = E (Y | X) 일 때 최소화되는 것으로 볼 수 있습니다 g(X)=E(Y|X).

증거에 대한 나의 퍼즐은 다음과 같습니다.

  1. 치다

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

첫 번째 항이 항상 0과 같다는 것을 보여주는 어떤 주장과도 독립적으로 g(X)=E(Y|X) 설정은 (E(Y|X)g(X))=0 이므로

이자형[2(와이이자형(와이|엑스))(이자형(와이|엑스)(엑스))+(이자형(와이|엑스)(엑스))2]=이자형(0+0) = 0입니다.

이것이 사실이라면, 그때 하나가 교체 증거 반복 할 수있는 의 다른 기능에 의해 말할 가 있음을, 그리고 결론에 도착 이 최소화식이. 따라서 내가 오해해야 할 것이 있어야합니다 (맞습니까?).X H ( X ) H ( X )이자형(와이|엑스)엑스h(엑스)h(엑스)

  1. 나는 문제의 진술에서 의 의미에 대해 의구심을 가지고있다 . 표기법을 어떻게 해석해야합니까? 그것은 의미합니까이자형[(와이(엑스))2]

이자형엑스[(와이(엑스))2] , 또는 ?E X Y [ ( Y - g ( X ) ) 2 ]이자형와이[(와이(엑스))2]이자형엑스와이[(와이(엑스))2]

답변:


11

(이것은 Granger & Newbold (1986) "Forecasting Economic Time Series"에서 채택한 것입니다).

구성 상 오류 비용 함수 는 입니다. 여기에는 오류 가정 함수가 0에 대해 대칭이라는 중요한 가정이 통합되어 있습니다. 즉, 다른 오류 비용 함수는 예상 값의 과 같은 조건부 기대 값을 가질 필요는 없습니다 . 알 수없는 수량이 포함되어있어 오류 비용 함수를 최소화 할 수 없습니다. 따라서 예상 값을 최소화하기로 결정했습니다. 그러면 목적 함수가됩니다 인수[와이(엑스)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

두 번째 질문에 대한 답도 믿습니다. 예상 값이 될 것이라는 점을 직관적으로 조건부 우리가 / 예측 예측하려고하기 때문에, 기반으로 . 구하기 위해 정사각형을 분해X Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

첫 번째 항은 포함 하지 않으므로 최소화에 영향을 미치지 않으며 무시할 수 있습니다. 두 번째 항의 적분은 주어진 의 조건부 예상 값 과 같고 마지막 항의 적분은 유니티와 같습니다. 그래서Y Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

1 차 미분 wrt 는 로 최소화 대한 1 차 조건을 하지만 2 차 미분은 같습니다 이상으로 충분합니다.2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

부록 : "추가 및 빼기"증명 접근 방식의 논리.

OP는 질문에 명시된 접근 방식에 의문을 제기합니다. 더하기와 빼기의 전술을 사용하여 더하거나 빼는 항의 임의 선택에 대해 목적 함수 의 특정 부분 을 0으로 만들지 만 , 값 함수 , 즉 목표 값을 같게하지 않습니다. 후보 최소화 기에서 평가 된 기능.

선택을 위해 우리는 가치 함수가 임의의 선택 경우 값 함수 .V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

나는 그것을 주장한다

E ( Y 2X ) 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X) ) ) 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

LHS 및 RHS의 첫 번째 기간이 취소됩니다. 또한 외부 기대 값은 에 대한 조건부입니다 . 조건부 기대의 속성으로 우리는 결국X

...2이자형(와이엑스)이자형(와이엑스)+[이자형(와이엑스)]22이자형(와이엑스)h(엑스)+[h(엑스)]2

0[이자형(와이엑스)]22이자형(와이엑스)h(엑스)+[h(엑스)]2

0[이자형(와이엑스)h(엑스)]2
경우 엄격한 부등식을 유지 합니다. 따라서 는 세계적이고 독특한 최소화 기입니다.E ( Y X )h(엑스)이자형(와이엑스)이자형(와이엑스)

그러나 이것은 또한 "추가 및 빼기"접근법이 여기에서 가장 훌륭한 증거 방법이 아니라고 말합니다.


답변 주셔서 감사합니다. 그것은 두 번째 질문을 명확히하는 데 도움이됩니다. 질문 제목을 전달하려고 할 때 내 주요 이슈 (포스트의 첫 번째 이슈)는 증명 메커니즘에 대한 자세한 내용입니다. 저의 주요 관심사는 제가 질문에 제시 한 증거에 대한 이해에 관한 것입니다. 내가 설명했듯이, 증거에 대한 나의 이해는 끔찍하게 문제가있는 진술로 이끌었습니다. 그래서 나는 내 실수가 기대와 개념적 기대의 개념에 대한 더 깊은 오해를 드러 낼 수 있다는 것을 이해하고 싶습니다. 이것에 대한 생각?
Martin Van der Linden

1
증명에 "추가 및 빼기"접근 방식에 대한 설명을 추가했습니다.
Alecos Papadopoulos

시간이 좀 걸렸지 만 마침내 내 기본 실수가 발생했습니다. 사실 충분히 인 경우 이지만 가 표현식을 최소화 한다는 의미는 아닙니다. . 대괄호로 묶인 표현식이 0보다 낮을 수없는 이유는 없습니다. 앞에 빼기 부호가 있기 때문에 어떤 는 . g ( X ) = H ( X ) H ( X ) ( Y h ( X ) ) (이자형[2(와이h(엑스))(h(엑스)(엑스))+(h(엑스)(엑스))2]=0(엑스)=h(엑스)h(엑스) g ( X ) E [ - 2 ( Y - H ( X ) ) ( H ( X ) - g ( X ) ) + ( H ( X ) - g ( X ) ) (2) ] < 0(와이h(엑스))(h(엑스)(엑스))(엑스)이자형[2(와이h(엑스))(h(엑스)(엑스))+(h(엑스)(엑스))2]<0
Martin Van der Linden

1
흠 ... 당신이 말하는 표현에서 빼기 부호는 실수입니다-그것은 더하기 부호이어야합니다. 물론 마이너스 부호를 다시 얻기 위해 용어를 다시 정렬 할 수 있습니다. 이로 인해 얻은 직관이 손상됩니까?
Alecos Papadopoulos 21시 03 분

문제를 해결해 주셔서 감사합니다. 이 실수를 해결하기 위해 초기 게시물을 편집했습니다. 다행히도 그것이 직관에 해를 끼치 지 않는다고 생각합니다. 실제로 그것은 또 다른 실수를 이해하는 데 도움이됩니다 : 나는 이 반드시 의 최소값 일 필요는 없다는 것을 보증하기 위해 빼기 부호가 중요하다고 가정했습니다 . 그러나 나는 이것이 2 이전의 부호에 관한 것이 아니라는 것을 알고있다. (희망스럽게) 내가 정말로 이해해야 할 것은, 일반적으로 (즉, 임의의 ) 때 최소화 할 필요는 없다 (오른쪽?). E [ - 2 ( Y - H ( X ) ) ( H ( X ) - g ( X ) ) + ( H ( X ) - g ( X ) ) 2 ] H ( X ) E [ 2 ( Y - H ( X ) ) ( H ( X ) - g (0이자형[2(와이h(엑스))(h(엑스)(엑스))+(h(엑스)(엑스))2]h(엑스)g ( X ) = h ( X )이자형[2(와이h(엑스))(h(엑스)(엑스))](엑스)=h(엑스)
Martin Van der Linden

5

답을 증명하기 위해서는 실제로

이자형[2(와이이자형(와이|엑스))(이자형(와이|엑스)(엑스))]=0

어떤 기대를 취할지는 조건부로, 그렇지 않으면 용어

인수(엑스)이자형[(와이(엑스))2]

가 아니라 경우 는 임의 변수이므로 의미 가 없습니다 . 실제로 또는 을 사용하여이를 명확하게합니다. 이제이 설명을 통해 이라는 용어 는 상수이며 expecation 외부로 가져올 수 있습니다.(엑스)이자형이자형엑스와이이자형와이|엑스이자형[(와이(엑스))2|엑스]이자형와이|엑스[(와이(엑스))2](이자형(와이|엑스)(엑스))

2(이자형(와이|엑스)(엑스))이자형[(와이이자형(와이|엑스))|엑스]=2(이자형(와이|엑스)(엑스))[이자형(와이|엑스)이자형[이자형(와이|엑스)|엑스]]=2(이자형(와이|엑스)(엑스))[이자형(와이|엑스)이자형(와이|엑스)]=0

따라서 목적 함수를 다음과 같이 작성할 수 있습니다.

이자형와이|엑스[(와이(엑스))2]=이자형와이|엑스[(와이이자형와이|엑스(와이|엑스))2]+(이자형와이|엑스(와이|엑스)(엑스))2

여기에서 미니 머가 분명합니다. 에 대해서도 평균을 구했다면 다음과 같이 매우 유사한 인수를 사용할 수 있습니다.엑스

이자형엑스[(이자형(와이|엑스)(엑스))2]=이자형엑스[(이자형와이|엑스(와이|엑스)이자형엑스[이자형와이|엑스(와이|엑스)])2]+(이자형엑스[이자형와이|엑스(와이|엑스)]이자형엑스[(엑스)])2

이것은 각 에 대해 를 설정 하면이 함수에 대해서도 최소화되었음을 나타냅니다. 어떤 의미에서 가 인지 인지 는 중요하지 않습니다 .(엑스)=이자형와이|엑스(와이|엑스)엑스이자형이자형와이엑스이자형와이|엑스


3

매우 간단한 수학적 관점이 있습니다. 당신이 가진 것은 의 벡터를 부분 공간에 투영하는 것과 매우 유사한, Hilbert 공간에서의 투영 문제입니다 .아르 자형

하자 기본 확률 공간을 나타낸다. 문제가 이해되기 위해서는 유한 한 순간 인 랜덤 변수, 즉 Hilbert 공간 . 이제 문제는 이것입니다 : 이면, 부분 공간 에 대한 의 투영을 찾으십시오. 여기서 은 IS -subalgebra의 의해 생성 된 . 유한 치수의 경우와 같이, 거리를 부분 공간으로 최소화 한다는 것은 투영을 찾는 것을 의미합니다. 원하는 투영은(Ω,에프,μ)2(Ω,에프,μ)엑스,와이2(Ω,에프,μ)와이2(Ω,에프엑스,μ)에프엑스σ에프엑스2E(X|Y) . ( 실존 증명을 검사하는 경우 실제로 특성을 나타냅니다 ).E(X|Y)


이것은 아름다운 반응입니다.
jII

0

마지막 질문과 관련하여 wrt (무조건 오류) 또는 wrt (각 값 의 조건부 오류 )가 될 수 있습니다. 행복하게도 각 값 에서 조건부 오류를 최소화하면 무조건 오류가 최소화되므로 이는 중요한 차이점이 아닙니다.p(x,y)p(yx)X=xX=x

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.