두 그룹으로 그룹화 된 1에서 1690 사이의 46840 이중 값을 포함하는 데이터 세트의 일부를 검사하고 있습니다. 이 그룹들 간의 차이점을 분석하기 위해 올바른 테스트를 선택하기 위해 값의 분포를 살펴 보았습니다.
정규성 테스트에 대한 안내에 따라 qqplot, histogram & boxplot을 수행했습니다.
이것은 정규 분포가 아닌 것 같습니다. 가이드는 순전히 그래픽 검사로는 충분하지 않다고 다소 정확하게 말하고 있기 때문에 분포의 정규성을 테스트하고 싶습니다.
R에서 데이터 세트의 크기와 shapiro-wilks 검정의 한계를 고려할 때 주어진 분포를 정규성 검정하고 데이터 세트의 크기를 어떻게 고려해야합니까? ( 이 질문에 대한 답변을 참조하십시오 )
편집하다:
내가 말하는 Shapiro-Wilk 테스트의 한계는 테스트 할 데이터 세트가 5000 포인트로 제한된다는 것입니다. 이 주제에 관한 또 다른 좋은 대답 을 인용하려면 :
Shapiro-Wilk 검정의 추가 문제는 더 많은 데이터를 제공 할 때 귀무 가설이 기각 될 가능성이 커진다는 것입니다. 따라서 많은 양의 데이터의 경우 정규성에서 매우 작은 편차조차도 감지 할 수 있으므로 실제 목적을 위해 데이터가 정상보다 더 많기 때문에 귀무 가설 이벤트가 거부됩니다.
[...] 운 좋게 shapiro.test는 데이터 크기를 5000으로 제한하여 위에서 설명한 효과로부터 사용자를 보호합니다.
처음에 정규 분포를 테스트하는 이유는 다음과 같습니다.
일부 가설 검정은 데이터의 정규 분포를 가정합니다. 이 테스트를 사용할 수 있는지 여부를 알고 싶습니다.