선형 회귀 분석에서 잔차 분포 확인


17

우리는 단순 회귀 분석의 실행 가정 y=β0+β1x+u , 저장된 잔차 ui^ 하고 잔차의 분포의 히스토그램을 그린다. 친숙한 분포처럼 보이는 것이 있으면 오차항에이 분포가 있다고 가정 할 수 있습니까? 예를 들어, 잔차가 정규 분포와 비슷하다는 것을 알면 모집단에서 오차 항의 정규성을 가정하는 것이 합리적입니까? 나는 그것이 합리적이라고 생각하지만 어떻게 정당화 될 수 있습니까?


1
개인적으로 히스토그램 (또는 커널 밀도 도표)에서 정규성을 평가하는 것이 다소 어렵다는 것을 알았습니다. 나는 그들에게 "궁극적 인"증거로 의존하지 않을 것입니다. QQ 플롯은이 목적에 훨씬 더 강력합니다.

답변:


18

모두 모수를 추정하는 방법에 따라 다릅니다 . 일반적으로 추정값은 선형이므로 잔차는 데이터의 선형 함수입니다. 오류가 때 정규 분포를 따라서 잔류 할 어디서, 다음 그래서, 데이터를 어떻게 전을 ( 내가uiu^ii 물론 인덱스 데이터의 경우 등).

잔차가 대략 정규 (일 변량) 분포를 갖는 것처럼 보일 때 이는 비정규 에서 발생하는 것으로 생각할 수 있습니다 (논리적으로 가능함). 분포의 오차 . 그러나 최소 제곱 (또는 최대 가능성) 추정 기법을 사용하면 잔차의 (다변량) 분포의 특성 함수가 오차의 cf와 크게 다를 수 없다는 점에서 잔차를 계산하기위한 선형 변환은 "가벼워"집니다 .

실제로, 우리는 결코 오류가하는 것이 필요하지 정확하게 이 중요하지 않은 문제가 있으므로, 일반적으로 분산. 오류에 대한 훨씬 더 중요한 수입은 (1) 그들의 기대치가 모두 0에 가까워 야한다는 것입니다. (2) 그들의 상관 관계가 낮아야한다. 그리고 (3) 허용 가능한 적은 수의 외부 값이 있어야한다. 이를 확인하기 위해 잔차에 다양한 적합도 검정, 상관 검정 및 이상치 검정 (각각)을 적용합니다. 신중한 회귀 모델링 에는 항상 이러한 테스트 ( 클래스에 plot적용될 때 R의 방법에 의해 자동으로 제공되는 잔차의 다양한 그래픽 시각화 포함)가 포함됩니다 lm.

이 질문에 도달하는 또 다른 방법 은 가정 된 모델에서 시뮬레이션 하는 것입니다. 다음은 R작업을 수행하는 일부 (최소한의 일회성) 코드입니다.

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

n = 32 인 경우 99 개의 잔차로 구성된이 중첩 확률도는 기준선 균일하게 쪼개기 때문에 오차 분포에 가깝게 나타나는 경향이 있습니다 (표준 표준) .y=x

n = 32 그림

n = 6 인 경우, 확률도에서 더 작은 중앙 기울기는 잔차가 오차보다 약간 작은 분산을 가짐을 암시하지만 대부분은 기준선을 충분히 잘 추적하기 때문에 전체적으로 정규 분포하는 경향이 있습니다. 작은 값 ) :n

n = 6 그림


데이터를 생성 할 때 say rexp(n)대신 추가하면 상황이 더 흥미로워집니다 rnorm(n). 잔차의 분포는 생각보다 정상에 가까워 질 것입니다.
StasK

그러나 잔차가 정상이라고 가정하지 않으면 결과 추정 계수의 p- 값은 어떻게 계산됩니까? 테스트 통계는 무엇입니까?
Ant

5

yi=xiβ+ϵi
y=Xβ+ϵ
e=(IH)y
H=X(XX)1X
ei(1hii)ϵihijϵj,jijihij2+hii2=hiiO(1/n) ϵiei(1hii)ϵi

1

친숙한 분포처럼 보이는 것이 있으면 오차항에이 분포가 있다고 가정 할 수 있습니까?

오류에 대한 정규성 가정이 유지되지 않으면 방금 적합 한 모델이 유효하지 않으므로 사용할 수 없다고 주장합니다. (분포의 모양이 Cauchy와 같이 분명히 비정규 적이라는 점에서)

fe Poisson 분산 오차를 가정하는 대신 일반적인 접근 방식은 잔차를 정규화하기 위해 log y 또는 1 / y와 같은 일부 형태의 데이터 변환을 수행하는 것입니다. (또한 실제 모델은 선형이 아니기 때문에 플롯 된 잔차가 실제로는 정상이지만 이상한 분포를 보이게합니다)

예를 들어, 잔차가 정규 분포와 비슷하다는 것을 알면 모집단에서 오차 항의 정규성을 가정하는 것이 합리적입니까?

OLS 회귀 분석에 적합하면 오류의 정규성을 가정했습니다. 해당 주장에 대한 주장을 제공해야하는지 여부는 작업의 유형과 수준에 따라 다릅니다. (현장에서 허용되는 관행이 무엇인지 살펴 보는 것이 종종 유용합니다)

이제 잔차가 실제로 정규 분포 인 것처럼 보이면 이전 가정에 대한 경험적 증거로 사용할 수 있기 때문에 등을 맞댄 자신을 반려 할 수 있습니다. :)


0

그렇습니다. 잔차는 오류입니다. 일반적인 QQ 플롯을 볼 수도 있습니다.


^나는 ~의 근사치 ?
whuber

7
이것은 pedantic이지만 잔차는 오류가 아닙니다. 잔차는 추정 된 모델과의 관측 된 차이입니다.와이나는엑스나는β^. 오류는 실제 모델과의 차이점입니다와이나는엑스나는β.
매크로

@ whuber : 그것이 무엇인지 모르겠지만 샘플을 정당화하는 것과 동일한 것으로 가정합니다. 엑스 인구 근사 엑스, 권리?
Wayne

1
@Wayne, I believe "it" refers to the procedure "if we found out that residuals resemble normal distribution, ... to assume normality of error terms in the population." I think you're basically right, but the subtlety is that the residuals are a product of both the sample and the method used to estimate the parameters. I find this to be a thoughtful and interesting question.
whuber

@whuber I would be interested in your take on studentized versus standardized versus raw residuals.
Michelle
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.