잔차 이분산성 측정


16

이 위키 백과 링크 에는 OLS 잔차 이분산성을 감지하는 여러 기술이 나열되어 있습니다. 이분산성에 영향을받는 영역을 감지하는 데 어떤 실습 기술이 더 효율적인지 알고 싶습니다.

예를 들어, 여기 OLS '잔여량 대 적합치'그림의 중앙 영역이 그림의 측면보다 더 높은 분산을 갖는 것으로 나타났습니다 (사실은 확실하지 않지만 문제의 경우라고 가정하겠습니다). 확인하기 위해 QQ 플롯에서 오류 레이블을 살펴보면 잔차 플롯 중심의 오류 레이블과 일치 함을 알 수 있습니다.

그러나 분산이 유의하게 더 높은 잔차 영역을 어떻게 정량화 할 수 있습니까?

이분산성


2
중간에 분산이 더 높다는 것이 확실하지 않습니다. 특이 치가 중앙 지역에 있다는 사실은 그것이 대부분의 데이터가있는 사실의 결과 일 것으로 보입니다. 물론 이것은 귀하의 질문을 무효화하지 않습니다.
피터 엘리스

1
qqplot은 분포의 비정규 성을 식별하고 비균질 분산을 직접 식별하지 않습니다.
Michael R. Chernick

@PeterEllis 예, 분산이 다른지 확실하지 않다는 질문에 지정했지만이 진단 그림을 사용하면 실제로 이분법 성이있을 수 있습니다.
Robert Kubrick

@MichaelChernick 난 단지 가장 높은 오차가 잔차 플롯의 중간에 집중되어 그 지역에서 더 높은 분산을 나타내는 방법을 설명하기 위해 qqplot 만 언급했습니다.
Robert Kubrick

답변:


15

이 문제는 탐색적인 느낌을줍니다. John Tukey는 그의 고전적인 탐색 데이터 분석 (Addison-Wesley 1977) 에서 이분산성을 탐색하기위한 많은 절차를 설명 합니다. 아마도 가장 직접적으로 유용한 것은 " 방황하는 회로도 "의 변형 일 것입니다 . 이렇게하면 하나의 변수 (예측 된 값)를 빈으로 자르고 m 문자 요약 (상자 그림 생성)을 사용하여 각 빈에 대한 다른 변수의 위치, 확산 및 모양을 표시합니다. 확률 편차보다는 전체 패턴을 강조하기 위해 m 문자 통계가 더욱 부드럽게됩니다.

boxplot절차를 활용하여 빠른 버전을 요리 할 수 ​​있습니다 R. 우리는 시뮬레이션 된이 분산 데이터를 보여줍니다 :

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

데이터

OLS 회귀에서 예측 된 값과 잔차를 구합니다.

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

다음으로, 예측 된 값에 대해 등수 빈을 사용하는 방황 회로도입니다. 나는 lowess빠르고 더럽고 매끄럽게 사용합니다.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

방황 회로도

파란색 곡선은 중앙값을 부드럽게합니다. 수평 경향은 회귀가 일반적으로 적합하다는 것을 나타냅니다. 다른 곡선은 상자 끝 (사 분위수)과 펜스 (일반적으로 극단적 인 값)를 부드럽게합니다. 이들의 강력한 수렴과 그에 따른 분리는 이분산성을 증명하고이를 특성화하고 정량화하는 데 도움이됩니다.

(예상 된 값의 분포를 반영하는 수평 축의 비선형 스케일에 주목하십시오. 약간의 작업으로이 축을 선형화 할 수 있으며 때로는 유용합니다.)


6
좋은 예, R에서 실행중인 Quantile을 구현할 수 있다고 생각했을 것입니다 (빈의 문제를 피하기 위해). 가방 플로트를 생각 나게 합니다 . 그의 레인보우 패키지에 Rob Hyndman의 확장 기능 도 참조하십시오 .
앤디 W

9

일반적으로 이분산성은 Breusch-Pagan 접근법을 사용하여 모델링됩니다. 선형 회귀의 잔차는 제곱되고 원래 선형 모형의 변수로 회귀됩니다. 후자의 회귀를 보조 회귀 라고합니다 .

아르 자형2, 어디 관측치의 수 아르 자형2 입니다 아르 자형2 보조 회귀 분석에서 s는 균등성 귀무 가설에 대한 검정 통계량으로 사용됩니다.

목적에 따라이 모델의 개별 계수에 초점을 두어 분산 변수가 높거나 낮은 결과를 가장 예측하는 변수를 확인할 수 있습니다.


1
+1 그러나 그러한 테스트는 감지 할 수있는 이분산성의 형태로 제한되어 있습니다. 이분산성이 매우 강하더라도 내 대답에 표시된 것과 같은 예가 바로 빠져 나갈 수 있습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.