R-QQPlot : 데이터의 정규 분포 여부 확인 방법


47

나는 Shapiro-Wilk 정규성 테스트를 한 후에 이것을 플로팅했습니다. 이 테스트는 모집단이 정규 분포를 따르는 것으로 나타났습니다. 그러나이 음모에서이 "행동"을 보는 방법은 무엇입니까?여기에 이미지 설명을 입력하십시오

최신 정보

데이터의 간단한 히스토그램 :

여기에 이미지 설명을 입력하십시오

최신 정보

Shapiro-Wilk 테스트는 다음과 같이 말합니다.

여기에 이미지 설명을 입력하십시오


6
편집 : SW 테스트 결과 는 이러한 데이터가 공통 정규 분포에서 독립적으로 도출되었다는 가설을 기각 합니다. p- 값은 매우 작습니다. (이것은 짧은 왼쪽 꼬리를 나타내는 qq 플롯과 양의 왜도를 나타내는 막대 그래프 모두에서 분명합니다.) 이것은 테스트를 잘못 해석했음을 나타냅니다. 시험을 올바르게 해석해도 여전히 질문이 있습니까?
whuber

4
반대로 소프트웨어와 모든 줄거리는 그들이 말하는 것과 일관성이 있습니다. qq 플롯과 히스토그램은 데이터가 정규성을 벗어나는 구체적인 방법을 보여줍니다. SW 테스트에 따르면 이러한 데이터는 정규 분포에서 나온 것 같지 않습니다.
whuber

1
음모가 왜 정규 분포가 아니라고 표시합니까? qqplot은 직선을 만들고 히스토그램도 정상적으로 분포 된 것처럼 보입니까? 나는 그것을 얻지 못한다; (
Le Max

7
qq 플롯은 명확 하지 않으며 히스토그램은 대칭 이 아닙니다 (정상 분포 된 히스토그램이 충족해야하는 많은 기준 중 가장 기본적 임). Sven Hohenstein의 답변 은 qq 플롯을 읽는 방법을 설명합니다.
whuber

1
같은 크기의 법선 벡터를 생성하고 법선 데이터로 QQ- 플롯을 만들어 데이터가 실제로 정규 분포에서 나올 때 어떻게 나타나는지 확인할 수 있습니다.
통계 학생

답변:


31

" 이 테스트는 인구가 정규 분포되어있을 가능성이 있음을 보여줍니다. "

아니; 그것은 보여주지 않았다.

가설 검정은 귀무가 될 가능성을 알려주지 않습니다. 실제로이 null이 false 인 것으로 내기 할 수 있습니다.

QQ 플롯은 비정규 성을 강력하게 나타내지 않습니다 (플롯은 매우 간단합니다). 왼쪽 꼬리가 약간 짧을 수도 있지만 실제로는 그다지 중요하지 않습니다.

히스토그램은 아마도 많이 말하지 않을 것입니다. 또한 왼쪽 꼬리가 약간 짧아집니다. 그러나 여기를 참조하십시오

데이터가 모인 인구 분포는 정확히 정상이 아닙니다. 그러나 QQ 플롯은 정규성이 아마도 상당히 좋은 근사치라는 것을 보여줍니다.

표본 크기가 너무 작지 않으면 Shapiro-Wilk에 대한 거부가 부족할 것입니다.

업데이트 : 실제 Shapiro-Wilk p- 값을 포함하도록 편집하는 것이 중요합니다. 실제로 일반적인 중요한 수준에서 null을 거부 할 것임을 나타 내기 때문입니다. 이 테스트는 데이터가 정규 분포를 따르지 않았으며 플롯으로 표시된 약한 왜곡이 테스트에서 수집 한 것일 수 있습니다. 변수 자체의 정규성을 가정 할 수있는 일반적인 절차 (1- 표본 t- 검정은 염두에 두는 것)에서 상당히 큰 표본 크기 인 것처럼 보일 때,이 가벼운 비정규 성은 거의 영향을 미치지 않습니다. 모두-적합도 검사의 문제점 중 하나는 문제가되지 않을 때 (샘플 크기가 약간 비정규 성을 감지하기에 충분히 큰 경우) 거부 할 가능성이 높다는 것입니다. 마찬가지로 가장 중요한 경우 (샘플 크기가 작은 경우) 거부하지 않을 가능성이 높습니다.


사실, 이것은 OP의 진술을 잘못 읽게했다. 나는 그가 말할 가능성이 없다고 생각했다. 나는 당신에 대해 약간 동의하지 않는다는 점에 유의하십시오. 검정은 귀무 가설이 참일 경우 관측이 어려울 가능성을 알려주지 만, 우리 이 관측치를 얻었 으므로 귀무 가설이 사실이 아니라고 주장하기 위해 이것을 사용 합니다.
Nick Sabbe

당신의 대답을위한 Thx! 나는 다른 방향으로 나아가는 모든 진술에 약간 혼란스러워합니다. 명확하게 말하면, 내 운동은 표본의 정규성에 대해 진술하는 것입니다. 교수님의 답변으로 무엇을 제안 하시겠습니까? 그리고 표본 크기가 큰 경우에도 정규성을 표시하는 방법은 무엇입니까?; S
Le Max

2
"QQ 플롯은 정규성과 합리적으로 일치하지만 왼쪽 꼬리는 약간 '짧습니다.
Glen_b

37

데이터가 정규 분포를 따르는 경우 QQ- 정상 그림의 점은 직선 대각선에 놓입니다. 명령을 사용하여 QQ 플롯에이 선을 추가 할 수 있습니다 qqline(x). 여기서 x값의 벡터는 다음과 같습니다.

정규 분포와 비정규 분포의 예 :

정규 분포

set.seed(42)
x <- rnorm(100)

선이있는 QQ- 정상 플롯 :

qqnorm(x); qqline(x)

여기에 이미지 설명을 입력하십시오

직선과의 편차는 최소입니다. 이것은 정규 분포를 나타냅니다.

히스토그램 :

hist(x)

여기에 이미지 설명을 입력하십시오

비정규 (감마) 분포

y <- rgamma(100, 1)

QQ- 정상 플롯 :

qqnorm(y); qqline(y)

여기에 이미지 설명을 입력하십시오

점은 직선이 아닌 다른 모양을 따릅니다.

히스토그램은 비정규 성을 확인합니다. 분포는 종 모양이 아니고 양의 기울어 짐을 나타냅니다 (즉, 대부분의 데이터 요소는 아래쪽에 있습니다). 정규 분포의 히스토그램은 분포 중심에서 가장 높은 빈도를 나타냅니다.

hist(y)

여기에 이미지 설명을 입력하십시오


qqplot에 신뢰 구간을 두는 것이 유용하다는 것을 알았습니다. "완벽하게"정상인 것은 없으며, 표본 크기는 물체가 정확하지 않고 정상 범위 내에있는 정도를 유발할 수 있습니다.
EngrStudent

@EngrStudent qqplot에 신뢰 구간을 포함하기 위해 공유 할 코드가 있습니까?
danno

1
@danno 패키지 의 qqPlot기능을 확인하십시오 car.
스벤 호헨 슈타인

@danno- "car"라이브러리에서 "qqPlot"을보십시오. 그것은 한동안 주위에 있었고, 나는 그것을하지 않았다. 신뢰 구간을 추가합니다. 비정규 분포에 대한 기본 분포를 지정할 수도 있습니다. 아래 답변에 있습니다.
EngrStudent

1
에이아르 자형영형엑스나는에이이자형와이

23

R에서 정규성 가정의 유효성을 검사하기위한 몇 가지 도구

library(moments)
library(nortest)
library(e1071)

set.seed(777)
x <- rnorm(250,10,1)

# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)

# Shapiro-Wilks test
shapiro.test(x)

# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))

# Anderson-Darling test
ad.test(x)

# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)

# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)

# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)

11

직감이 일부 테스트 결과와 일치하는지 시각적으로 확인하는 것이 좋지만 매번 쉬운 일이라고는 생각할 수 없습니다 . Higgs Boson을 탐지하려는 사람들이 시각적으로 결과를 평가할 수있는 경우에만 결과를 신뢰할 수 있다면 매우 날카로운 눈이 필요합니다.

특히 큰 데이터 세트 (일반적으로 거듭 제곱이 증가함에 따라)에서 통계는 육안으로 거의 식별 할 수없는 경우에도 가장 작은 차이를 포착하는 경향이 있습니다.

즉, 일반적으로 QQ 플롯에는 직선이 표시되어야합니다. 그렇지 않다고 말할 것입니다. 꼬리에는 구부러진 부분이 있으며 가운데 근처에서도 약간의 동요가 있습니다. 시각적으로, 나는 여전히 (정상 성을 확인하는 목표에 따라)이 데이터가 "합리적으로"정상적이라고 말할 수 있습니다.

그러나 정규성을 확인하려는 대부분의 목적에는 관측치의 정규성 대신 평균의 정규성 만 필요하므로 중앙 한계 정리로 충분합니다. 또한 정규성은 종종 "공식적으로"확인해야한다는 가정이지만 많은 테스트가이 가정을 이행하지 않는 것에 대해 매우 둔감 한 것으로 나타났습니다.


2

나는 중심 경향뿐만 아니라 신뢰 구간을 제공하기 때문에 'R'라이브러리 'car'에서 버전을 좋아합니다. 데이터의 동작이 가상 분포와 일치하는지 확인하는 데 도움이되는 시각적 지침을 제공합니다.

library(car)

qqPlot(lm(prestige ~ income + education + type, data=Duncan), 
       envelope=.99)

일부 링크 :

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.