나는 Shapiro-Wilk 정규성 테스트를 한 후에 이것을 플로팅했습니다. 이 테스트는 모집단이 정규 분포를 따르는 것으로 나타났습니다. 그러나이 음모에서이 "행동"을 보는 방법은 무엇입니까?
최신 정보
데이터의 간단한 히스토그램 :
최신 정보
Shapiro-Wilk 테스트는 다음과 같이 말합니다.
나는 Shapiro-Wilk 정규성 테스트를 한 후에 이것을 플로팅했습니다. 이 테스트는 모집단이 정규 분포를 따르는 것으로 나타났습니다. 그러나이 음모에서이 "행동"을 보는 방법은 무엇입니까?
최신 정보
데이터의 간단한 히스토그램 :
최신 정보
Shapiro-Wilk 테스트는 다음과 같이 말합니다.
답변:
" 이 테스트는 인구가 정규 분포되어있을 가능성이 있음을 보여줍니다. "
아니; 그것은 보여주지 않았다.
가설 검정은 귀무가 될 가능성을 알려주지 않습니다. 실제로이 null이 false 인 것으로 내기 할 수 있습니다.
QQ 플롯은 비정규 성을 강력하게 나타내지 않습니다 (플롯은 매우 간단합니다). 왼쪽 꼬리가 약간 짧을 수도 있지만 실제로는 그다지 중요하지 않습니다.
히스토그램은 아마도 많이 말하지 않을 것입니다. 또한 왼쪽 꼬리가 약간 짧아집니다. 그러나 여기를 참조하십시오
데이터가 모인 인구 분포는 정확히 정상이 아닙니다. 그러나 QQ 플롯은 정규성이 아마도 상당히 좋은 근사치라는 것을 보여줍니다.
표본 크기가 너무 작지 않으면 Shapiro-Wilk에 대한 거부가 부족할 것입니다.
업데이트 : 실제 Shapiro-Wilk p- 값을 포함하도록 편집하는 것이 중요합니다. 실제로 일반적인 중요한 수준에서 null을 거부 할 것임을 나타 내기 때문입니다. 이 테스트는 데이터가 정규 분포를 따르지 않았으며 플롯으로 표시된 약한 왜곡이 테스트에서 수집 한 것일 수 있습니다. 변수 자체의 정규성을 가정 할 수있는 일반적인 절차 (1- 표본 t- 검정은 염두에 두는 것)에서 상당히 큰 표본 크기 인 것처럼 보일 때,이 가벼운 비정규 성은 거의 영향을 미치지 않습니다. 모두-적합도 검사의 문제점 중 하나는 문제가되지 않을 때 (샘플 크기가 약간 비정규 성을 감지하기에 충분히 큰 경우) 거부 할 가능성이 높다는 것입니다. 마찬가지로 가장 중요한 경우 (샘플 크기가 작은 경우) 거부하지 않을 가능성이 높습니다.
데이터가 정규 분포를 따르는 경우 QQ- 정상 그림의 점은 직선 대각선에 놓입니다. 명령을 사용하여 QQ 플롯에이 선을 추가 할 수 있습니다 qqline(x)
. 여기서 x
값의 벡터는 다음과 같습니다.
정규 분포와 비정규 분포의 예 :
정규 분포
set.seed(42)
x <- rnorm(100)
선이있는 QQ- 정상 플롯 :
qqnorm(x); qqline(x)
직선과의 편차는 최소입니다. 이것은 정규 분포를 나타냅니다.
히스토그램 :
hist(x)
비정규 (감마) 분포
y <- rgamma(100, 1)
QQ- 정상 플롯 :
qqnorm(y); qqline(y)
점은 직선이 아닌 다른 모양을 따릅니다.
히스토그램은 비정규 성을 확인합니다. 분포는 종 모양이 아니고 양의 기울어 짐을 나타냅니다 (즉, 대부분의 데이터 요소는 아래쪽에 있습니다). 정규 분포의 히스토그램은 분포 중심에서 가장 높은 빈도를 나타냅니다.
hist(y)
qqPlot
기능을 확인하십시오 car
.
R에서 정규성 가정의 유효성을 검사하기위한 몇 가지 도구
library(moments)
library(nortest)
library(e1071)
set.seed(777)
x <- rnorm(250,10,1)
# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)
# Shapiro-Wilks test
shapiro.test(x)
# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))
# Anderson-Darling test
ad.test(x)
# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)
# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)
# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)
직감이 일부 테스트 결과와 일치하는지 시각적으로 확인하는 것이 좋지만 매번 쉬운 일이라고는 생각할 수 없습니다 . Higgs Boson을 탐지하려는 사람들이 시각적으로 결과를 평가할 수있는 경우에만 결과를 신뢰할 수 있다면 매우 날카로운 눈이 필요합니다.
특히 큰 데이터 세트 (일반적으로 거듭 제곱이 증가함에 따라)에서 통계는 육안으로 거의 식별 할 수없는 경우에도 가장 작은 차이를 포착하는 경향이 있습니다.
즉, 일반적으로 QQ 플롯에는 직선이 표시되어야합니다. 그렇지 않다고 말할 것입니다. 꼬리에는 구부러진 부분이 있으며 가운데 근처에서도 약간의 동요가 있습니다. 시각적으로, 나는 여전히 (정상 성을 확인하는 목표에 따라)이 데이터가 "합리적으로"정상적이라고 말할 수 있습니다.
그러나 정규성을 확인하려는 대부분의 목적에는 관측치의 정규성 대신 평균의 정규성 만 필요하므로 중앙 한계 정리로 충분합니다. 또한 정규성은 종종 "공식적으로"확인해야한다는 가정이지만 많은 테스트가이 가정을 이행하지 않는 것에 대해 매우 둔감 한 것으로 나타났습니다.
나는 중심 경향뿐만 아니라 신뢰 구간을 제공하기 때문에 'R'라이브러리 'car'에서 버전을 좋아합니다. 데이터의 동작이 가상 분포와 일치하는지 확인하는 데 도움이되는 시각적 지침을 제공합니다.
library(car)
qqPlot(lm(prestige ~ income + education + type, data=Duncan),
envelope=.99)
일부 링크 :