정규성을 위해 큰 데이터 세트 테스트-어떻게 그리고 신뢰할 수 있습니까?


12

두 그룹으로 그룹화 된 1에서 1690 사이의 46840 이중 값을 포함하는 데이터 세트의 일부를 검사하고 있습니다. 이 그룹들 간의 차이점을 분석하기 위해 올바른 테스트를 선택하기 위해 값의 분포를 살펴 보았습니다.

정규성 테스트에 대한 안내에 따라 qqplot, histogram & boxplot을 수행했습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오 여기에 이미지 설명을 입력하십시오

이것은 정규 분포가 아닌 것 같습니다. 가이드는 순전히 그래픽 검사로는 충분하지 않다고 다소 정확하게 말하고 있기 때문에 분포의 정규성을 테스트하고 싶습니다.

R에서 데이터 세트의 크기와 shapiro-wilks 검정의 한계를 고려할 때 주어진 분포를 정규성 검정하고 데이터 세트의 크기를 어떻게 고려해야합니까? ( 이 질문에 대한 답변을 참조하십시오 )

편집하다:

내가 말하는 Shapiro-Wilk 테스트의 한계는 테스트 할 데이터 세트가 5000 포인트로 제한된다는 것입니다. 이 주제에 관한 또 다른 좋은 대답 을 인용하려면 :

Shapiro-Wilk 검정의 추가 문제는 더 많은 데이터를 제공 할 때 귀무 가설이 기각 될 가능성이 커진다는 것입니다. 따라서 많은 양의 데이터의 경우 정규성에서 매우 작은 편차조차도 감지 할 수 있으므로 실제 목적을 위해 데이터가 정상보다 더 많기 때문에 귀무 가설 이벤트가 거부됩니다.

[...] 운 좋게 shapiro.test는 데이터 크기를 5000으로 제한하여 위에서 설명한 효과로부터 사용자를 보호합니다.

처음에 정규 분포를 테스트하는 이유는 다음과 같습니다.

일부 가설 검정은 데이터의 정규 분포를 가정합니다. 이 테스트를 사용할 수 있는지 여부를 알고 싶습니다.


11
포인트 테스트는 없습니다. 모든 사용에 대한 모든 테스트, 합리적인 의미 수준은 분명히 거부합니다. 무엇을 읽고 있든간에 잘못 인도했습니다. 정확히 '신뢰할 수있다'는 것은 무엇을 의미합니까? Shapiro-Wilk의 '제한'은 무엇입니까? 나는 당신이 "정상적인 테스트가 옳은 일을하는 상황을 본 적이 없다"는 말에 거의 동의 할 것이다. 옳은 일이지만 사람들은 거의 항상 나쁜 이유로 그것을합니다.
Glen_b-복귀 모니카

@Glen_b : 우연히, 나는 다른 날Shapiro–Wilk를 사용 하여 널에 대한 증거를 정량화하는 것을 발견했습니다. 아카데미아의 누군가가 실수로 성적 샘플보다 크다고 가정했습니다. 나는 그것이 방어적인 사용법인지 궁금합니다.
Nick Stauner

@NickStauner 내 답변이 단일 댓글에 비해 너무 오래 커져서 게시물에 대한 일련의 댓글 로이 질문을 납치하고 싶지 않습니다. 가능성 : 채팅을하거나 대화에 대한 질문을 게시하거나 (대답을 게시 할 수있는) 이메일과 같은 다른 방법으로 토론합니다.
Glen_b-복지 주 모니카

답변:


14

왜 네가 귀찮게했는지 모르겠어 일반적으로 정상적이지 않습니다.이 경우 그래픽 검사로 충분합니다. 당신은 멋진 깨끗한 감마 분포로 보이는 것에서 많은 관찰을 얻었습니다. 그냥가요 필요한 경우 – 참조 분포를 권장합니다.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
여기에 이미지 설명을 입력하십시오

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

내가 항상 말했듯이, " 정상 테스트는 '필수적으로 쓸모가 없습니까?' , 특히 @ MånsT의 답변을 참조하십시오 . 이것은 다른 분석이 정규성 가정의 다른 위반에 대해 다른 감도를 가지고 있음을 지적합니다. 분포가 과 아마도 와 kurtosis ( "excess kurtosis" ) 일 것입니다. 많은 테스트에서 문제가 될 수 있습니다. 더 적절한 파라 메트릭 가정을 가진 테스트를 찾을 수 없거나 전혀없는 경우 데이터를 변환하거나 적어도 분석에 대한 민감도 분석을 수행 할 수 있습니다.5.9 2.91.45.92.9

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.