단순 선형 회귀 분석에서 잔차 분산 공식은 어디에서 오는가?


21

내가 사용하는 텍스트에 따르면 잔차 의 분산 공식 은 다음과 같습니다.ith

σ2(11n(xix¯)2Sxx)

잔차가 관측 값과 적합치 의 차이 이므로 믿기가 어렵습니다 . 차이의 분산을 계산하는 경우 최소한 결과 표현식에 "플러스"가 표시됩니다. 파생을 이해하는 데 도움이 될 것입니다.ithithith


텍스트의 일부 " "표시가 " "표시 로 잘못 렌더링 될 수 있습니까? +
whuber

나는 이것을 생각했지만, 본문 (2 개의 다른 챕터)에서 두 번 일어났기 때문에 나는 그것이 불가능하다고 생각했다. 물론 공식의 유도가 도움이 될 것입니다! :)
Eric

음수는 관측치와 적합치 간의 양의 상관 관계로 인해 차이의 분산이 줄어 듭니다.
Glen_b-복귀 모니카

@Glen 아래의 행렬 파생과 함께 수식이 의미가있는 이유를 설명해 주셔서 감사합니다.
Eric

답변:


27

분산과 관련된 "더하기"부호에 대한 직감 (독립 임의 변수의 차이의 분산을 계산할 때도 분산을 추가한다는 사실로부터) 정확하지만 치명적인 불완전 함 : 관련된 임의 변수가 독립적이 아닌 경우 공분산도 포함되며 공분산은 음수 일 수 있습니다. 이 표현 존재하는 거의 가 (나를 등) OP가 될 "해야한다"고 생각했던 문제의 표현처럼, 그리고 그것은이다 의 분산 예측 오류 가 나타내는, , 여기서 :Y 0 = β 0 + β 1 X 0 + U 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

예측 오차의 분산과의 편차 사이의 중요한 차이 추정 에러 (즉, 잔여의)는 예측 관찰 에러 용어이다 추정기와 관련되지 않은 값 때문에, 하였다 되지 에서 사용 추정값을 구성하고 추정값을 계산하여 표본을 벗어난 값입니다.y0

두 대수는 정확히 같은 방식으로 점까지 진행 되지만 ( 대신 사용 ) 분기됩니다. 구체적으로 :나는0i

간단한 선형 회귀 분석 , , 추정기의 분산 는 여전히 바르 ( U I ) = σ 2 βyi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

우리는

XX=[nxixixi2]

그래서

(XX)1=[xi2xixin][nxi2(xi)2]1

우리는

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxx

그래서

(엑스'엑스)1=[(1/)엑스나는2엑스¯엑스¯1](1/에스엑스엑스)

의미하는 것은

바르(β^0)=σ2(1엑스나는2) (1/에스엑스엑스)=σ2에스엑스엑스+엑스¯2에스엑스엑스=σ2(1+엑스¯2에스엑스엑스)

Var(β^1)=σ2(1/Sxx)

코브(β^0,β^1)=σ2(엑스¯/에스엑스엑스)

번째의 나머지는 다음과 같이 정의된다나는

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

실제 계수들은 회귀 고정 (또는 조건부)는 상수로 간주하고, 에러 항 제로 공분산을 가지고있다 그러나 추정기는 에러 항과 상관되는 상기 추정기는 종속 변수를 포함하기 때문에, 상기 종속 변수 오류 용어를 포함합니다. 그래서 우리는

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)x나는],나는)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

그것을 얻기 위해 조금 포장

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

큰 괄호 안의 용어는 예측 오차의 분산과 정확히 동일한 구조를 갖습니다. 유일한 변경은 대신 을 갖게됩니다 (그리고 분산은 의 변수 이며 ). 이므로 은 추정값에 포함 되지 않으므로 예측 오차의 마지막 공분산 항은 0 이지만 와 는 표본의 일부 이므로 추정 오차에는 이 아닙니다 . 평가자. 우리는X 0 E 0 U I Y 0 U 0 Y I U Ixix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

계산 방식의 마지막 대체 계속,β^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ22(엑스나는엑스¯)에스엑스엑스[σ2(엑스나는엑스¯)+(엑스나는엑스¯)σ2]

=2σ22(엑스나는엑스¯)에스엑스엑스[0+(엑스나는엑스¯)σ2]=2σ22σ2(엑스나는엑스¯)2에스엑스엑스

이것을 잔차의 분산에 대한 표현식에 삽입하면

바르(^나는)=σ2(11(엑스나는엑스¯)2에스엑스엑스)

따라서 OP가 사용하는 텍스트를 싫어합니다.

(나는 일부 대수 조작을 건너 뛰었습니다. 요즘 OLS 대수학이 점점 덜 가르쳐지는 것은 놀라운 일이 아닙니다 ...)

일부 이해

따라서 예측할 때 "우리에 대해"(더 큰 차이) 작동하고 추정 할 때 "우리에 대해"(더 낮은 차이) 작동하는 것으로 보입니다. 이것은 왜 훌륭한 적합이 모델의 예측 능력에 나쁜 신호가 될 수 있는지 숙고하기위한 좋은 출발점입니다.
우리는 사실 추정 회귀 변수의 예상 값이 감소 하여 분산을 . 왜? 추정 함으로써 , 우리 는 본질적으로 기대 값을 추정하기 때문에 샘플에 존재 하는 약간의 오차-변이성 에 대해 "눈을 감는다" . 또한 회귀 분석기의 표본 평균에서 회귀 분석기의 관측 편차가 클수록1/이 관측 값과 관련된 잔차의 분산은 다음과 같습니다. 관측 값이 더 이탈 적 일수록 잔차가 덜 이탈 적입니다 ... 그것은 알려지지 않은 오류의 "장소를 점령"함으로써 우리를 위해 일하는 회귀 자의 변동성입니다. 가변성.

그러나 그것은 추정에 좋습니다 . 대한 예측 , 같은 일이 우리에 대해 설정 : 지금, 그러나 불완전, 계정에 변화를 고려하지 않음으로써 (우리가 그것을 예측하기 원하기 때문에), 샘플에서 얻은 우리의 불완전한 추정량은 자신의 약점을 보여 우리가 추정 샘플 평균, 우리는 실제 예상 값을 알지 못합니다-분산이 증가합니다. 우리는 다른 관측치로부터 계산 된 바와 같이 표본 평균에서 멀리 떨어진 을 가지고 있습니다-너무 나쁘다, 예측 오차 분산은 또 다른 부스트를 얻습니다. 왜냐하면 예측 된 은 타락하는 경향이 있기 때문입니다. 과학 언어 "감소 된 예측 오차 분산의 관점에서 최적의 예측 변수는X 0 (Y) 0와이0엑스0 와이^0평균쪽으로 수축 예측에 따라 변수의 가까운 평균 "". 우리는 종속 변수의 변화 - 우리는 단지 숙박 시도를 복제하려고하지 않는다 ".


매우 명확한 답변을 주셔서 감사합니다! "직관"이 정확해서 다행입니다.
Eric

Alecos, 나는 이것이 옳다고 생각하지 않습니다.
Glen_b-복귀 모니카

@Alecos 실수는 모수 추정값을 오류 항과 관련이없는 것으로 간주합니다. 이 부분 : 이 맞지 않습니다. 바르(^나는)=바르(나는)+바르(β^0)+엑스나는2바르(β^1)+2엑스나는코브(β^0,β^1)
Glen_b-복귀 모니카

@Eric 앞서 오해 한 점에 대해 사과드립니다. 두 수식 모두에 대한 직감을 제공하려고했습니다.
Alecos Papadopoulos

+1 왜이 문제에 대해 다중 회귀 분석을 수행했는지 알 수 있습니다. 단순 회귀 분석을 수행하기위한 추가 노력에 감사드립니다.
Glen_b-복지 주 모니카

19

다소 간결한 대답, 아마도 지나치게 추상적이고 바람직한 양의 직관적 인 설명이 부족하여 죄송하지만 나중에 다시 돌아와서 몇 가지 세부 정보를 추가하려고 시도합니다. 적어도 짧습니다.

주어진 ,H=엑스(엑스엑스)1엑스

바르(와이와이^)=바르((나는H)와이)=(나는H)바르(와이)(나는H)=σ2(나는H)2=σ2(나는H)

금후

바르(와이나는와이^나는)=σ2(1h나는나는)

간단한 선형 회귀의 경우 ...이 질문에 대한 답을 제공합니다.

이 응답은 또한 의미한다 : 이후 긍정적으로 상관된다 차이의 분산은 편차의 합보다 작아야한다.와이^나는와이나는

-

편집 : 왜 가 dem 등원 인지 설명 .(나는H)

(i) 는 dem 등원이다 :H

= X [H2=엑스(엑스엑스)1엑스엑스(엑스엑스)1엑스 =엑스 [(엑스엑스)1엑스엑스] (엑스엑스)1엑스=엑스(엑스엑스)1엑스=H

(ii)(나는H)2=나는2나는HH나는+H2=나는2H+H=나는H


1
나에게 분명하지 않은 한 단계는 왜 이지만 이것은 단순함에 대한 매우 좋은 파생입니다 . 어쨌든 계획을 세울 때 대답을 조금 확장하면 아마도 그것에 대해 조금 말할 수 있습니까? (나는H)2=(나는H)
Jake Westfall

@Jake 마지막에 두 줄 추가
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.