잔차는 오차항의 추정치입니다.
이 질문에 대한 짧은 대답은 비교적 간단합니다. 회귀 모형의 가정은 오차항의 동작에 대한 가정이며 잔차는 오차항의 추정치입니다. 실제로 관측 된 잔차의 거동을 조사하면 오차항에 대한 가정이 그럴듯한 지 아닌지를 알 수 있습니다.
이 일반적인 추론을 더 자세히 이해하려면 표준 회귀 모형에서 잔차의 거동을 자세하게 조사하는 데 도움이됩니다. 독립적 인 등각 정규 오차 항을 갖는 표준 다중 선형 회귀에서는 잔차 벡터의 분포가 알려져 있으므로 회귀 모형의 기본 분포 가정을 테스트 할 수 있습니다. 기본 아이디어는 회귀 가정 하에서 잔차 벡터의 분포를 알아 낸 다음 잔차 값이이 이론적 분포와 일치하는지 확인하는 것입니다. 이론적 잔차 분포와의 편차는 오류 항의 기본 가정 분포가 어떤 측면에서 잘못되었음을 보여줍니다.
기본 오류 분포를 사용하는 경우 ϵ나는∼ IID N ( 0 ,σ2) 표준 회귀 모형의 경우 계수에 OLS 추정을 사용하면 잔차 분포가 다변량 정규 분포로 표시 될 수 있습니다.
r = ( 나는− h ) ϵ ∼ N ( 0 ,σ2( 난- H ) ) ,
여기서 는 IS 모자 행렬 회귀 대한. 잔차 벡터는 오차 벡터를 모방하지만 분산 행렬에는 추가 곱셈 항 있습니다. 회귀 가정을 테스트하기 위해 한계 T 분포가있는 학생 잔차를 사용합니다.h = x (엑스티엑스)− 1엑스티나는− h
에스나는≡아르 자형나는σ^내선⋅ ( 1 −엘나는)∼ T (df입술− 1 ) .
(이 공식은 분산 추정기가 고려중인 변수를 제외하는 외부 학생 잔차에 대한 것입니다. 값 는 레버리지 값이며, 모자 행렬 의 대각선 값입니다 . 만약 독립지만, 큰 경우, 이들은 독립적으로 확대한다.이 수단 여백 분포 간단한 공지 분포이지만 관절 분포 복잡된다.) 이제, 만약 제한 가 존재하면 계수 추정기는 실제 회귀 계수의 일관된 추정기이며 잔차는 진정한 오류 조건.엘나는=h내가 , 내가엔임n → ∞(엑스티x ) / n = Δ
본질적으로 이는 학생 화 된 잔차를 T- 분포와 비교하여 오차항에 대한 기본 분포 가정을 테스트 함을 의미합니다. 오차 분포의 기본 특성 (선형성, 균일도, 상관되지 않은 오차, 정규성)은 학생 화 된 잔차 분포의 유사한 특성을 사용하여 테스트 할 수 있습니다. 모형이 올바르게 지정된 경우 이 큰 경우 잔차는 실제 오차항에 가까워 야하며 유사한 분포 형태를 갖습니다.엔
회귀 모델에서 설명 변수를 생략 하면 계수 추정기에서 변수 바이어스 가 생략 되고 잔차 분포에 영향을줍니다. 잔차 벡터의 평균과 분산 모두 생략 된 변수의 영향을받습니다. 회귀에서 생략 된 항이 이면 잔차 벡터는 . 생략 된 행렬 의 데이터 벡터 가 IID 법선 벡터이고 오류 항과 무관 한 경우지δr = ( 나는− h ) ( Zδ + ϵ )지지δ + ϵ ∼ N ( μ 1 ,σ2※나는) 잔류 분포는 다음과 같습니다.
r = ( 나는− h ) ( Zδ + ϵ ) ~ N ( μ ( I− h ) 1 ,σ2※( 난- H ) ) .
모형에 이미 절편이있는 경우 (즉, 단위 벡터 이 설계 행렬에있는 경우)1(난− h ) 1 = 0이는 잔차의 표준 분포 형태가 보존됨을 의미합니다. 모형에 절편 항이없는 경우 생략 된 변수는 잔차에 대해 0이 아닌 평균을 제공 할 수 있습니다. 또는 생략 된 변수가 IID 정규가 아닌 경우 표준 잔차 분포와 다른 편차가 발생할 수 있습니다. 후자의 경우, 잔차 테스트는 생략 된 변수의 존재로 인한 결과를 감지 할 가능성이 없습니다. 이론적 잔차 분포로부터의 편차가 변수 생략의 결과로 발생하는지 또는 단순히 포함 된 변수와의 부정확 한 관계로 인해 발생하는지 여부를 판단하는 것은 일반적으로 불가능합니다 (그리고 어떤 경우에도 이들은 동일합니다).