이 문제는 탐색적인 느낌을줍니다. John Tukey는 그의 고전적인 탐색 데이터 분석 (Addison-Wesley 1977) 에서 이분산성을 탐색하기위한 많은 절차를 설명 합니다. 아마도 가장 직접적으로 유용한 것은 " 방황하는 회로도 "의 변형 일 것입니다 . 이렇게하면 하나의 변수 (예측 된 값)를 빈으로 자르고 m 문자 요약 (상자 그림 생성)을 사용하여 각 빈에 대한 다른 변수의 위치, 확산 및 모양을 표시합니다. 확률 편차보다는 전체 패턴을 강조하기 위해 m 문자 통계가 더욱 부드럽게됩니다.
의 boxplot
절차를 활용하여 빠른 버전을 요리 할 수 있습니다 R
. 우리는 시뮬레이션 된이 분산 데이터를 보여줍니다 :
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
OLS 회귀에서 예측 된 값과 잔차를 구합니다.
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
다음으로, 예측 된 값에 대해 등수 빈을 사용하는 방황 회로도입니다. 나는 lowess
빠르고 더럽고 매끄럽게 사용합니다.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
파란색 곡선은 중앙값을 부드럽게합니다. 수평 경향은 회귀가 일반적으로 적합하다는 것을 나타냅니다. 다른 곡선은 상자 끝 (사 분위수)과 펜스 (일반적으로 극단적 인 값)를 부드럽게합니다. 이들의 강력한 수렴과 그에 따른 분리는 이분산성을 증명하고이를 특성화하고 정량화하는 데 도움이됩니다.
(예상 된 값의 분포를 반영하는 수평 축의 비선형 스케일에 주목하십시오. 약간의 작업으로이 축을 선형화 할 수 있으며 때로는 유용합니다.)