잔차는 근본적인 장애와 어떤 관련이 있습니까?

9

최소 제곱 법에서는 모형에서 알 수없는 매개 변수를 추정하려고합니다.

Y_{j} = α + β x_{j} + ε_{j} (j = 1... n)

$Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n)$

일단 우리가 (일부 관찰 된 값들에 대해), 우리는 적합 회귀선을 얻습니다 :

Y_{j} = \hat{α} + \hat{β} x + e_{j} (j = 1, . . . n)

$Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n)$

이제 우리는 가정을 충족시키기 위해 몇 가지 플롯을 확인하려고합니다. 를 확인하려고하지만이를 위해 실제로 잔차 를 확인하고 있다고 가정합니다 . 이분산성이 명백하다는 것을 보여 주면 잔차 대 예측 값 그림을 살펴보면, 그것은 방해 항 와 어떻게 관련이 있습니까? 잔차에서 이분산성은 교란항에서 이분산성을 의미 하는가? $e_j$ $\varepsilon_j$

— 대니
소스

3

그것에 대해 생각하는 가장 간단한 방법은 원시 잔차 ( )가 해당 교란의 추정치 ( )라는 것입니다. 그러나 몇 가지 추가 복잡성이 있습니다. 예를 들어 표준 OLS 모델에서 오류 / 방해가 독립적이라고 가정하지만 잔차가 모두 다를 수는 없습니다. 평균 모형을 추정 할 때 자유도를 사용 하고 잔차가 제한 되므로 일반적으로 잔차 만 독립적 일 수 있습니다. $e_j = y_j-\hat y_j$ $\hat\varepsilon_j = e_j$ $N-p-1$ $p-1$ $0$ . 또한 원시 잔차의 표준 편차는 실제로 일정하지 않습니다. 일반적으로 회귀선은 레버리지가 큰 지점에 평균적으로 더 가깝도록 적합합니다. 결과적으로, 해당 지점에 대한 잔차의 표준 편차는 낮은 레버리지 지점의 표준 편차보다 작습니다. (이에 대한 자세한 내용은 plot.lm () 해석 및 / 또는 here : 선형 회귀 분석에서 이진 / 이분법 독립 예측 변수에 대한 잔차 분석을 수행하는 방법을 읽을 수 있습니다. )

— gung-복직 모니카
소스

3

명확히하기 위해, 최대 Np-1 잔차는 독립적 일 수 있지만 일반적으로 그것들은 모두 상관되어 있습니다. 대신 Np-1 독립 구성 요소를 가질 수있는 선형 변환이 있습니다.

— Glen_b-복지 모니카

@Glen_b, 좋은 지적입니다.

— gung-Monica Monica 복원

8

과 의 관계 는 다음 과 같습니다. $\hat{\varepsilon}$ $\varepsilon$

\hat{ε} = (I - H) ε

$\hat{\varepsilon} = (I-H) \varepsilon$

여기서 모자 행렬 인 는 입니다. $H$ $X(X^TX)^{-1}X^T$

즉, 는 모든 오류의 선형 조합이지만 일반적으로 대부분의 가중치는 번째 오류에 해당합니다 . $\hat{\varepsilon}_i$ $i$

다음 cars은 R 의 데이터 세트를 사용하는 예 입니다. 자주색으로 표시된 점을 고려하십시오.

여기에 이미지 설명을 입력하십시오

그것을 라고하자 . 나머지 (여기서 다른 오류에 대한 는 -0.02의 영역에 있음) : $i$ $\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\sum_{j\neq i} w_j \varepsilon_j$ $w_j$

여기에 이미지 설명을 입력하십시오

이를 다음과 같이 다시 작성할 수 있습니다.

$\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\eta_i$

또는 더 일반적으로

$\hat{\varepsilon}_i= (1-h_{ii})\varepsilon_i +\eta_i$

여기서 는 의 번째 대각선 요소입니다 . 마찬가지로 위 의 는 입니다. $h_{ii}$ $i$ $H$ $w_j$ $h_{ij}$

오차가 iid 경우이 예에서 다른 오차의 가중치 합은 번째 관측치 오차가 잔차에 미치는 영향의 약 1/7에 해당하는 표준 편차를 갖습니다. . $N(0,\sigma^2)$ $i$

다시 말해서, 잘 동작하는 회귀 분석에서 잔차는 대부분 관측 할 수없는 오차 항의 약간 잡음이 많은 추정치처럼 취급 될 수 있습니다. 중심에서 더 멀리 점을 고려할 때 상황이 다소 덜 잘 작동합니다 (잔차가 오차에 덜 가중되고 다른 오차에 대한 가중치가 덜 균일 해짐).

매개 변수가 많거나 잘 분포되어 있지 않으면 잔차가 오류와 훨씬 유사 할 수 있습니다. 몇 가지 예를 시도해 볼 수 있습니다. $X$

— Glen_b-복귀 모니카
소스

2

이것이 올바른 접근법입니다. 추가로 필요한 것은 의 대각선 요소 가 일반적으로 "작다" 는 주장입니다 . 이는 트레이스가 독립 변수 (있는 경우 절편 포함)의 수와 같다는 것을 보여줌으로써 이루어집니다. 이는 프로젝션 매트릭스라는 사실과는 직접적인 관계가 있습니다. 이 결과는 개별 에 대한 배포 가정과 무관합니다. 이는 필요는 없습니다. 또한 실제의 독립적 인 화학식 위한 ; 차원 수의 결과입니다.

H

$H$

ε_{i}

$\varepsilon_i$

H

$H$

— whuber

관측치 이 적은 경우 잔차가 오차와 훨씬 덜 다른 상황 이 아닌가? 일반적으로 @whuber는 의 트레이스가 독립 변수의 수와 같다는 사실이 대각선 요소가 작다는 것을 암시하지만 이러한 요소 의 수 이 그 자체 인 경우 반드시 그렇지는 않습니다 .

n

$n$

H

$H$

n

$n$

— Adam Bailey

@AdamBailey 물론 이 작을 때 발생 하지만 ... 가 1 또는 2 인 경우에도 이 비교적 크기 때문입니다 .

n

$n$

p / n

$p/n$

p

$p$

— Glen_b -Reinstate Monica