회귀 오류에 대한 가정을 검정하기 위해 잔차를 사용하는 이유는 무엇입니까?


10

모델이 있다고 가정합니다 .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

회귀 분석은 오차 가 평균 0과 일정한 분산으로 정규 분포되어야 한다는 것과 같은 많은 가정을 가지고 있습니다. 정규 QQ 플롯을 사용하여 잔차 정규성을 테스트 하고 잔차 대 적합 플롯을 사용하여 이러한 가정 을 확인하여 잔차가 일정한 분산으로 0 주위에서 변하는 지 확인했습니다.ϵiei=YiY^i

그러나 이러한 테스트는 모두 오차가 아닌 잔차에 대한 것입니다.

내가 이해 한 바에 따르면 오류는 각 관측치의 '참'평균값과의 편차로 정의됩니다. 따라서 라고 쓸 수 있습니다 . 이러한 오류는 우리가 관찰 할 수 없습니다. *ϵi=YiE[Yi]

내 질문은 이것입니다 : 오류를 모방하는 데 잔차가 얼마나 잘합니까?

잔차에 대한 가정이 충족되는 것으로 보이면 이것이 오류에 대해서도 만족한다는 의미입니까? 모델을 테스트 데이터 세트에 맞추고 잔차를 얻는 것과 같이 가정을 테스트하는 다른 (더 나은) 방법이 있습니까?


* 또한 모델을 올바르게 지정하지 않아도 됩니까? 즉, 반응이 실제로 예측 변수와 관계가 있다는 것입니다.X1,X2, 모델에서 지정한 방식으로

예측 변수가 누락 된 경우 (예 : Xk+1 to Xp), 기대 E[Yi]=β0+β1Xi1+β2Xi2++βkXik 실제 평균이 아니더라도 잘못된 모델에 대한 추가 분석은 의미가없는 것 같습니다.

모델이 올바른지 어떻게 확인합니까?

답변:


9

잔차는 오차항의 추정치입니다.

이 질문에 대한 짧은 대답은 비교적 간단합니다. 회귀 모형의 가정은 오차항의 동작에 대한 가정이며 잔차는 오차항의 추정치입니다. 실제로 관측 된 잔차의 거동을 조사하면 오차항에 대한 가정이 그럴듯한 지 아닌지를 알 수 있습니다.

이 일반적인 추론을 더 자세히 이해하려면 표준 회귀 모형에서 잔차의 거동을 자세하게 조사하는 데 도움이됩니다. 독립적 인 등각 정규 오차 항을 갖는 표준 다중 선형 회귀에서는 잔차 벡터의 분포가 알려져 있으므로 회귀 모형의 기본 분포 가정을 테스트 할 수 있습니다. 기본 아이디어는 회귀 가정 하에서 잔차 벡터의 분포를 알아 낸 다음 잔차 값이이 이론적 분포와 일치하는지 확인하는 것입니다. 이론적 잔차 분포와의 편차는 오류 항의 기본 가정 분포가 어떤 측면에서 잘못되었음을 보여줍니다.

기본 오류 분포를 사용하는 경우 ϵiIID N(0,σ2) 표준 회귀 모형의 경우 계수에 OLS 추정을 사용하면 잔차 분포가 다변량 정규 분포로 표시 될 수 있습니다.

r=(Ih)ϵN(0,σ2(Ih)),

여기서 는 IS 모자 행렬 회귀 대한. 잔차 벡터는 오차 벡터를 모방하지만 분산 행렬에는 추가 곱셈 항 있습니다. 회귀 가정을 테스트하기 위해 한계 T 분포가있는 학생 잔차를 사용합니다.h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(이 공식은 분산 추정기가 고려중인 변수를 제외하는 외부 학생 잔차에 대한 것입니다. 값 는 레버리지 값이며, 모자 행렬 의 대각선 값입니다 . 만약 독립지만, 큰 경우, 이들은 독립적으로 확대한다.이 수단 여백 분포 간단한 공지 분포이지만 관절 분포 복잡된다.) 이제, 만약 제한 가 존재하면 계수 추정기는 실제 회귀 계수의 일관된 추정기이며 잔차는 진정한 오류 조건.li=hi,inlimn(xTx)/n=Δ

본질적으로 이는 학생 화 된 잔차를 T- 분포와 비교하여 오차항에 대한 기본 분포 가정을 테스트 함을 의미합니다. 오차 분포의 기본 특성 (선형성, 균일도, 상관되지 않은 오차, 정규성)은 학생 화 된 잔차 분포의 유사한 특성을 사용하여 테스트 할 수 있습니다. 모형이 올바르게 지정된 경우 이 큰 경우 잔차는 실제 오차항에 가까워 야하며 유사한 분포 형태를 갖습니다.n

회귀 모델에서 설명 변수를 생략 하면 계수 추정기에서 변수 바이어스생략 되고 잔차 분포에 영향을줍니다. 잔차 벡터의 평균과 분산 모두 생략 된 변수의 영향을받습니다. 회귀에서 생략 된 항이 이면 잔차 벡터는 . 생략 된 행렬 의 데이터 벡터 가 IID 법선 벡터이고 오류 항과 무관 한 경우Zδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) 잔류 분포는 다음과 같습니다.

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

모형에 이미 절편이있는 경우 (즉, 단위 벡터 이 설계 행렬에있는 경우)1(Ih)1=0이는 잔차의 표준 분포 형태가 보존됨을 의미합니다. 모형에 절편 항이없는 경우 생략 된 변수는 잔차에 대해 0이 아닌 평균을 제공 할 수 있습니다. 또는 생략 된 변수가 IID 정규가 아닌 경우 표준 잔차 분포와 다른 편차가 발생할 수 있습니다. 후자의 경우, 잔차 테스트는 생략 된 변수의 존재로 인한 결과를 감지 할 가능성이 없습니다. 이론적 잔차 분포로부터의 편차가 변수 생략의 결과로 발생하는지 또는 단순히 포함 된 변수와의 부정확 한 관계로 인해 발생하는지 여부를 판단하는 것은 일반적으로 불가능합니다 (그리고 어떤 경우에도 이들은 동일합니다).


1
포괄적 인 답변에 감사드립니다. 어디서 구할 수 있습니까 ? 그것은 나에게 보인다r=(Ih)ϵr=YY^=(Ih)Y
마이

1
이후 당신이 그래서 입니다. hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
벤-복 직원 모니카

-4

일반적으로 잔차와 오류라는 용어는 같은 의미입니다. 모형에 예측 변수가없는 경우 E (Y)는 실제로 Y의 평균입니다. 모형에서와 같이 예측 변수의 경우 E (Y)는 각 X에서 예측 된 Y의 값입니다. 따라서 잔차는 각 관측치의 차이입니다. 예측 된 Y.


3
"일반적으로 잔차와 오류라는 용어는 같은 의미입니다." 나는 이것이 사실이라고 생각하지 않습니다. 내가 이해하는 한 잔차는 관측 값과 예측 값의 차이를 측정하는 반면 오류는 관측 값과 실제 평균 값의 차이를 측정합니다.
mai

1
엄밀히 말하면 오류와 잔차는 동의어가 아닙니다. 전자는 랜덤 변수이고 후자는 실현입니다.
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.