QQ 플롯은 정상적으로 보이지만 Shapiro-Wilk 테스트에서 그렇지 않다고 말합니다


12

R에는 348 개의 측정 값 샘플이 있으며, 향후 테스트를 위해 정상적으로 분포되어 있다고 가정 할 수 있는지 알고 싶습니다.

본질적으로 다른 스택 답변 을 따라 밀도 플롯과 QQ 플롯을보고 있습니다.

plot(density(Clinical$cancer_age))

여기에 이미지 설명을 입력하십시오

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

여기에 이미지 설명을 입력하십시오

통계에 대한 경험이 많지 않지만 내가 본 정규 분포의 예처럼 보입니다.

그런 다음 Shapiro-Wilk 테스트를 실행 중입니다.

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

올바르게 해석하면 귀무 가설을 기각하는 것이 안전하다는 것을 알 수 있습니다. 즉, 분포가 정상입니다.

그러나 두 개의 스택 게시물 ( herehere )이 발생 하여이 테스트의 유용성을 크게 손상시킵니다. 표본이 크면 (348이 큰 것으로 간주 됨) 항상 분포가 정상이 아니라고 말합니다.

이 모든 것을 어떻게 해석해야합니까? QQ 플롯을 고수하고 분포가 정상이라고 가정해야합니까?


4
qq 플롯은 꼬리에서 정상에서 벗어나는 것으로 보입니다. 또한 적합도에 대한 유용한 검정은 탐지 된 정규성에서 약간의 이탈이 있기 때문에 매우 큰 표본에서 거부됩니다. 이는 Shapiro-Wilk 검정에 대한 비판이 아니라 적합도에 대한 검정의 특징입니다.
Michael R. Chernick

4
정규 분포를 가정하는 것이 왜 중요합니까? 그 가정에 근거하여 무엇을 하시겠습니까?
Roland

6
롤랜드의 의견에 덧붙여 말하면 정규 분포를 공식적으로 가정하는 많은 테스트는 정규성에서 약간 벗어난 경우 실제로 상당히 강력합니다 (예 : 테스트 통계 분포가 무정형이기 때문에). 당신이 의도 한 것에 대해 자세히 설명 할 수 있다면 더 유용한 답변을 얻을 수 있습니다.
P.Windridge

1
@mdewey, 날카로운 관찰! 발병 연령은 아니지만 DNA 메틸화에 의해 측정 된 종양의 "나이".
francoiskroll

2
측정 오류인지 확인하기 위해 극소수의 극단 관측 값을 조사해 볼 가치가 있다고 생각합니다.
mdewey

답변:


11

여기에는 문제가 없습니다. 귀하의 데이터는 약간 비정규 적이지만 문제가되지 않을 정도로 정상입니다. 많은 연구자들이 가지고있는 것보다 훨씬 적은 정규 데이터로 정규성을 가정 한 통계 테스트를 수행합니다 .

나는 당신의 눈을 믿을 것입니다. 꼬리에 약간의 양의 기울어 짐에도 불구하고 밀도와 QQ 플롯은 합리적으로 보입니다. 제 생각에는 이러한 데이터의 비정규성에 대해 걱정할 필요가 없습니다.

N은 약 350이며 p- 값은 샘플 크기에 따라 크게 달라집니다. 큰 샘플을 사용하면 거의 모든 것이 중요 할 수 있습니다. 이것은 여기서 논의되었습니다.

이 매우 인기있는 게시물에는 기본적으로 비정규성에 대한 귀무 가설 유의성 검정을 수행하는 것이 "본질적으로 쓸모가 없다" 는 결론에 대한 놀라운 답변이 있습니다. 이 게시물에 대한 대답 은 거의 가우시안 프로세스에서 데이터가 생성 된 경우에도 샘플 크기가 충분하여 비정규 테스트가 중요 하다는 멋진 데모입니다 .


죄송합니다. 원래 질문에서 언급 한 게시물에 링크 된 것을 깨달았습니다. 그래도 내 결론은 여전히 ​​유효합니다. 데이터가 비정상적이지 않아서 문제가 될 수 있습니다.


some.researchers가 너무 조잡했기 때문에 조금 조잡 할 수는 없습니다 :). 그러나 나는 공식적으로 정규성을 가정하는 많은 통계 테스트가 실제로 당신이 먹는 것에 상당히 관대하다는 것에 동의합니다.
P.Windridge

2
"일부. 연구자들이 너무 조잡했기 때문에 약간 조잡 할 수있는 것은 아닙니다.)" 그것은 저의 잘못된 주장이었습니다. "하지만 공식적으로 정규성을 가정하는 많은 통계 테스트가 실제로 피드에 대해 상당히 관대하다는 데 동의합니다." 네 확실합니다. 내가 가진 모든 quant 교수는 이와 같은 QQ 플롯을보고 "그렇습니다. 괜찮습니다."라고 말했습니다.
마크 화이트

4

분포가 정상 이 아닙니다 . 꼬리를 보라. 다음은 일반적인 QQ 플롯에서 예상되는 것입니다.

여기에 이미지 설명을 입력하십시오

다양한 QQ 플롯을 해석하는 방법에 대해서는 게시물을 참조하십시오 .

분포는 기술적으로는 정상적이지 않지만 정규성이 필요한 알고리즘에 적합 할 정도로 정상일 수 있습니다 .


1
무슨 말을하고 있는지, 코드 세트를 사용하여 직접 정규 분포를 형성하는 9 개의 정규 qq 플롯을 실행했습니다. (ed in 1 : 9) {x < -rnorm (350) qqnorm (x) qqline (x)} 및 plot (3,2)는 OP의 상황과 매우 유사합니다.
Josh

1
꼬리가 너무 나쁘면 결과가 좋지 않을 수 있지만 일반적으로 꼬리에 초점을 맞추고 싶지 않습니다. 당신은 정말로 중간에 집중하고 싶습니다.
Josh

당신은 잘못된 조쉬입니다. 정규성 귀무 가설이 기각되는지 여부를 확인하려면 정규 테스트에 항소하십시오.
시정

1
네가 옳아. 나는 처음에 QQ 플롯이 정상적이지 않아서 귀하의 게시물을 읽었으며 사과드립니다.
Josh

2
@Josh, 분포의 중간은 가설 검정에 거의 문제가되지 않습니다. 중요한 꼬리입니다. 당신은 거꾸로 있습니다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.