우리는 단순 회귀 분석의 실행 가정 , 저장된 잔차 하고 잔차의 분포의 히스토그램을 그린다. 친숙한 분포처럼 보이는 것이 있으면 오차항에이 분포가 있다고 가정 할 수 있습니까? 예를 들어, 잔차가 정규 분포와 비슷하다는 것을 알면 모집단에서 오차 항의 정규성을 가정하는 것이 합리적입니까? 나는 그것이 합리적이라고 생각하지만 어떻게 정당화 될 수 있습니까?
우리는 단순 회귀 분석의 실행 가정 , 저장된 잔차 하고 잔차의 분포의 히스토그램을 그린다. 친숙한 분포처럼 보이는 것이 있으면 오차항에이 분포가 있다고 가정 할 수 있습니까? 예를 들어, 잔차가 정규 분포와 비슷하다는 것을 알면 모집단에서 오차 항의 정규성을 가정하는 것이 합리적입니까? 나는 그것이 합리적이라고 생각하지만 어떻게 정당화 될 수 있습니까?
답변:
모두 모수를 추정하는 방법에 따라 다릅니다 . 일반적으로 추정값은 선형이므로 잔차는 데이터의 선형 함수입니다. 오류가 때 정규 분포를 따라서 잔류 할 어디서, 다음 그래서, 데이터를 어떻게 유 전을 ( 내가 물론 인덱스 데이터의 경우 등).
잔차가 대략 정규 (일 변량) 분포를 갖는 것처럼 보일 때 이는 비정규 에서 발생하는 것으로 생각할 수 있습니다 (논리적으로 가능함). 분포의 오차 . 그러나 최소 제곱 (또는 최대 가능성) 추정 기법을 사용하면 잔차의 (다변량) 분포의 특성 함수가 오차의 cf와 크게 다를 수 없다는 점에서 잔차를 계산하기위한 선형 변환은 "가벼워"집니다 .
실제로, 우리는 결코 오류가하는 것이 필요하지 정확하게 이 중요하지 않은 문제가 있으므로, 일반적으로 분산. 오류에 대한 훨씬 더 중요한 수입은 (1) 그들의 기대치가 모두 0에 가까워 야한다는 것입니다. (2) 그들의 상관 관계가 낮아야한다. 그리고 (3) 허용 가능한 적은 수의 외부 값이 있어야한다. 이를 확인하기 위해 잔차에 다양한 적합도 검정, 상관 검정 및 이상치 검정 (각각)을 적용합니다. 신중한 회귀 모델링 에는 항상 이러한 테스트 ( 클래스에 plot
적용될 때 R의 방법에 의해 자동으로 제공되는 잔차의 다양한 그래픽 시각화 포함)가 포함됩니다 lm
.
이 질문에 도달하는 또 다른 방법 은 가정 된 모델에서 시뮬레이션 하는 것입니다. 다음은 R
작업을 수행하는 일부 (최소한의 일회성) 코드입니다.
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
n = 32 인 경우 99 개의 잔차로 구성된이 중첩 확률도는 기준선 균일하게 쪼개기 때문에 오차 분포에 가깝게 나타나는 경향이 있습니다 (표준 표준) .
n = 6 인 경우, 확률도에서 더 작은 중앙 기울기는 잔차가 오차보다 약간 작은 분산을 가짐을 암시하지만 대부분은 기준선을 충분히 잘 추적하기 때문에 전체적으로 정규 분포하는 경향이 있습니다. 작은 값 ) :
rexp(n)
대신 추가하면 상황이 더 흥미로워집니다 rnorm(n)
. 잔차의 분포는 생각보다 정상에 가까워 질 것입니다.
친숙한 분포처럼 보이는 것이 있으면 오차항에이 분포가 있다고 가정 할 수 있습니까?
오류에 대한 정규성 가정이 유지되지 않으면 방금 적합 한 모델이 유효하지 않으므로 사용할 수 없다고 주장합니다. (분포의 모양이 Cauchy와 같이 분명히 비정규 적이라는 점에서)
fe Poisson 분산 오차를 가정하는 대신 일반적인 접근 방식은 잔차를 정규화하기 위해 log y 또는 1 / y와 같은 일부 형태의 데이터 변환을 수행하는 것입니다. (또한 실제 모델은 선형이 아니기 때문에 플롯 된 잔차가 실제로는 정상이지만 이상한 분포를 보이게합니다)
예를 들어, 잔차가 정규 분포와 비슷하다는 것을 알면 모집단에서 오차 항의 정규성을 가정하는 것이 합리적입니까?
OLS 회귀 분석에 적합하면 오류의 정규성을 가정했습니다. 해당 주장에 대한 주장을 제공해야하는지 여부는 작업의 유형과 수준에 따라 다릅니다. (현장에서 허용되는 관행이 무엇인지 살펴 보는 것이 종종 유용합니다)
이제 잔차가 실제로 정규 분포 인 것처럼 보이면 이전 가정에 대한 경험적 증거로 사용할 수 있기 때문에 등을 맞댄 자신을 반려 할 수 있습니다. :)
그렇습니다. 잔차는 오류입니다. 일반적인 QQ 플롯을 볼 수도 있습니다.