이분산성 및 잔차 정규성


12

나는 아주 좋은 선형 회귀를 가지고 있다고 생각합니다 (대학 프로젝트를위한 것이므로 정말로 정확할 필요는 없습니다).

요점은 잔차 대 예측 값을 플롯하면 (내 교사에 따르면)이 분산의 힌트가 있습니다.

그러나 잔차의 QQ-Plot을 플롯하면 정규 분포가 분명합니다. 또한 잔차에 대한 Shapiro 검정의 값은 이므로 잔차가 실제로 정규 분포인지 의심 할 여지가 없습니다.0.8

질문 : 잔차가 정규 분포를 따르는 경우 어떻게 예측값에 이분산성이있을 수 있습니까?


1
@whubers 우수한 대답 한 매우 짧은 또한 : 당신은 사용할 수 ncvTest의 기능을 차량 패키지를 위해 R이 분산에 대한 공식적인 테스트를 수행 할 수 있습니다. whuber의 예에서이 명령 은 거의 0 인 값을 ncvTest(fit)생성하며 일정한 오차 분산 (물론 예상 된)에 대해 강력한 증거를 제공합니다.
COOLSerdash

답변:


16

이 질문에 접근하는 한 가지 방법은 그것을 거꾸로 보는 것입니다 : 어떻게 정규 분포 잔차로 시작하여이 분산이되도록 할 수 있습니까? 이 관점에서 답은 분명해집니다. 더 작은 잔차를 더 작은 예측 값과 연관시킵니다.

설명하기 위해 여기에 명시 적 구성이 있습니다.

그림

왼쪽의 데이터는 선형 맞춤 (빨간색으로 표시)에 비해 이분산성이 분명합니다. 이것은 오른쪽 의 잔차 예측 플롯에 의해 시작됩니다. 그러나 구성에 따르면 정렬되지 않은 잔차 세트 는 중간에 막대 그래프가 표시되는 것처럼 정규 분포에 가깝습니다. (Shapiro-Wilk 정규성 검정의 p- 값은 0.60이며 아래 코드를 실행 한 후 실행 된 R명령으로 얻습니다 shapiro.test(residuals(fit)).)

실제 데이터도 이와 같이 보일 수 있습니다. 도덕은 이분산성이 잔차 크기와 예측 사이의 관계를 특징 짓는 반면, 정규성은 잔차가 다른 것과 어떤 관련이 있는지에 대해서는 아무 것도 알려주지 않는다는 것입니다.


R이 구성 의 코드 는 다음과 같습니다 .

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")

2
자, 낮은 잔차를 높은 예측 값과 연관 시키면 잔차가 정규 분포되어 있어도 이분산성이 발생할 수 있습니까? 나는 그것에 대해 더 많이 생각해야하지만 그것을 가지고 있다고 생각합니다. 어쨌든 감사합니다!
앤트

... 예측 된 값이 낮거나 (여기의 예와 같이) 더 복잡한 방식으로 잔차가 적습니다. 예를 들어, 이분산성은 평균 잔차의 크기가 예측 된 값으로 진동 할 때 존재합니다. (이분산성에 대한 대부분의 공식 테스트는이를 감지하지 못하지만 일반적인 진단 플롯은이를 명확하게 보여줍니다.)
whuber

0

가중 최소 제곱 (WLS) 회귀 분석에서는 종종 중요하지는 않지만 보려고 할 수도있는 추정 잔차의 랜덤 요인입니다. https://www.researchgate.net/publication 에서 1 페이지 하단과 2 페이지와 7 페이지의 하단 절반에 간단한 회귀 분석 원점과 회귀 분석 사례에 표시된대로 추정 잔차를 고려할 수 있습니다. / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys 어쨌든, 이것은 정상이 그림에 들어갈 수있는 곳을 보여주는 데 도움이 될 수 있습니다.


@JimKnaub 사이트에 오신 것을 환영합니다. 우리는 가끔 질문에 대한 전문 지식을 빌려주십시오. 왜 계정을 등록하지 않습니까? 도움말 센터내 계정 섹션 에서 방법을 찾을 수 있습니다 . 여기에 처음 오셨으므로 새로운 사용자를위한 정보가 포함 된 둘러보기 를 이용하십시오.
gung-복직 모니카

3
우리는 질문과 답변의 형태로 고품질 통계 정보의 영구 저장소를 구축하려고합니다. 따라서 링크 로트로 인해 링크에 의존하는 답변에주의해야합니다. 링크에서 전체 인용 및 정보 요약 (예 : 그림 / 설명)을 게시하여 링크가 중단 된 경우에도 정보가 유용하게 유지되도록 할 수 있습니까?
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.