답변:
이 질문에 접근하는 한 가지 방법은 그것을 거꾸로 보는 것입니다 : 어떻게 정규 분포 잔차로 시작하여이 분산이되도록 할 수 있습니까? 이 관점에서 답은 분명해집니다. 더 작은 잔차를 더 작은 예측 값과 연관시킵니다.
설명하기 위해 여기에 명시 적 구성이 있습니다.
왼쪽의 데이터는 선형 맞춤 (빨간색으로 표시)에 비해 이분산성이 분명합니다. 이것은 오른쪽 의 잔차 대 예측 플롯에 의해 시작됩니다. 그러나 구성에 따르면 정렬되지 않은 잔차 세트 는 중간에 막대 그래프가 표시되는 것처럼 정규 분포에 가깝습니다. (Shapiro-Wilk 정규성 검정의 p- 값은 0.60이며 아래 코드를 실행 한 후 실행 된 R
명령으로 얻습니다 shapiro.test(residuals(fit))
.)
실제 데이터도 이와 같이 보일 수 있습니다. 도덕은 이분산성이 잔차 크기와 예측 사이의 관계를 특징 짓는 반면, 정규성은 잔차가 다른 것과 어떤 관련이 있는지에 대해서는 아무 것도 알려주지 않는다는 것입니다.
R
이 구성 의 코드 는 다음과 같습니다 .
set.seed(17)
n <- 256
x <- (1:n)/n # The set of x values
e <- rnorm(n, sd=1) # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)] # Generate some y values plus "error" `e`.
fit <- lm(y ~ x) # Regress `y` against `x`.
par(mfrow=c(1,3)) # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
가중 최소 제곱 (WLS) 회귀 분석에서는 종종 중요하지는 않지만 보려고 할 수도있는 추정 잔차의 랜덤 요인입니다. https://www.researchgate.net/publication 에서 1 페이지 하단과 2 페이지와 7 페이지의 하단 절반에 간단한 회귀 분석 원점과 회귀 분석 사례에 표시된대로 추정 잔차를 고려할 수 있습니다. / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys 어쨌든, 이것은 정상이 그림에 들어갈 수있는 곳을 보여주는 데 도움이 될 수 있습니다.
ncvTest
의 기능을 차량 패키지를 위해R
이 분산에 대한 공식적인 테스트를 수행 할 수 있습니다. whuber의 예에서이 명령 은 거의 0 인 값을ncvTest(fit)
생성하며 일정한 오차 분산 (물론 예상 된)에 대해 강력한 증거를 제공합니다.