Shapiro-Wilk는 강력한 정규성 테스트입니다.
가장 좋은 방법은 실제로 사용하려는 모든 절차가 다양한 종류의 비정규성에 얼마나 민감한 지에 대한 좋은 아이디어를 얻는 것입니다. 받아 들일 수 있습니다).
도표를보기위한 비공식적 인 접근 방식은 실제로 가지고있는 것과 동일한 표본 크기 (예 : 24 개)와 동일한 표본 크기의 정규 데이터 세트를 생성하는 것입니다. 이러한 플롯의 그리드에 실제 데이터를 플로팅하십시오 (24 개의 랜덤 세트의 경우 5x5). 특히 이상하게 보이지 않는 경우 (가장 최악으로 보이는 경우) 정상과 합리적으로 일치합니다.
내 눈에, 중앙의 데이터 세트 "Z"는 "o"및 "v"및 아마도 "h"와 대략적으로 같지만 "d"및 "f"는 약간 나빠 보입니다. "Z"는 실제 데이터입니다. 나는 그것이 실제로 정상이라고 잠시 믿지 않지만, 일반 데이터와 비교할 때 특히 이상하게 보이지는 않습니다.
[편집 : 방금 임의의 설문 조사를 실시했습니다. 음, 딸에게 물었지만 상당히 임의의 시간에 – 최소한의 직선에 대한 그녀의 선택은 "d"였습니다. 설문에 응한 사람들 중 100 %가 "d"가 가장 홀수 인 것으로 생각했습니다.]
보다 공식적인 접근 방식은 Shapiro-Francia 테스트 (QQ- 플롯의 상관 관계를 기반으로 효과적으로 수행)를 수행하는 것이지만 (a) Shapiro Wilk 테스트만큼 강력하지는 않으며 (b) 공식 테스트는 어쨌든 당신이 이미 답을 알아야한다는 질문 (때때로)은 당신이 대답해야 할 질문 대신 (데이터가 얼마나 심각합니까?)
요청한대로 위의 코드를 표시하십시오. 멋진 것은 없습니다.
z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])
opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));
ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)
for(i in 1:25) {
qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
qqline(xz[,i],col=2,lty=2)
box("figure", col="darkgreen")
text(-1.5,ytpos[i],cn[i])
}
par(opar)
x
(최소한 80 년대 중반부터 이런 식의 음모를 꾸미고 있습니다. 가정이 유지 될 때와 그렇지 않을 때 어떻게 행동하는지에 익숙하지 않은 경우 음모를 어떻게 해석 할 수 있습니까?)
더보기:
Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne, DF and Wickham, H. (2009) 탐색 적 데이터 분석 및 모델 진단을위한 통계적 추론 Phil. 트랜스 R. Soc. A 2009 367, 4361-4383 doi : 10.1098 / rsta.2009.0120