지금까지 작은 표본의 정규성 가정을 테스트하기 위해 Shapiro-Wilk 통계를 사용했습니다.
다른 기술을 추천 해 주시겠습니까?
지금까지 작은 표본의 정규성 가정을 테스트하기 위해 Shapiro-Wilk 통계를 사용했습니다.
다른 기술을 추천 해 주시겠습니까?
답변:
R ( rmetrics의 일부 )에 포함 된 fBasics 패키지 에는 몇 가지 정규성 테스트가 포함되어 있으며, 일반적인 테스트 ( 콜 로고 로프-스 미르 노프, Shapiro-Wilk, Jarque-Bera 및 D' Agostino)와 함께 여러 가지 정규성 테스트가 포함되어 정상 테스트 를위한 래퍼가 있습니다. Anderson-Darling, Cramer-von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi-square 및 Shapiro–Francia와 같은 표준 패키지로 제공됩니다. 패키지 문서는 또한 모든 중요한 참고 자료를 제공합니다. 다음은 nortest 에서 테스트 를 사용하는 방법을 보여주는 데모입니다 .
시간이 있다면 한 가지 방법은 둘 이상의 테스트를 사용하고 동의를 확인하는 것입니다. 테스트는 여러 가지 방법으로 다양하므로 "최고"를 선택하는 것이 전적으로 쉬운 것은 아닙니다. 해당 분야의 다른 연구원들은 무엇을 사용합니까? 이것은 다를 수 있으며 다른 사람들이 귀하의 작업을 받아 들일 수 있도록 허용 된 방법을 고수하는 것이 가장 좋습니다. 나는 종종 이러한 이유로 Jarque-Bera 테스트를 사용하고 비교를 위해 Anderson-Darling을 사용합니다.
당신은 볼 수 있습니다 "단 변량 정규성에 대한 시험의 비교" (2002 Seier)과 "정상의 다양한 테스트의 비교" 문제의 비교 및 토론 (2007 Yolacan Yazici).
모든 분포 함수 덕분에 R에서 비교하기 위해 이러한 방법을 테스트하는 것도 쉽지 않습니다 . 다음은 시뮬레이션 된 데이터를 사용한 간단한 예입니다 (공간을 절약하기 위해 결과를 인쇄하지는 않습니다).
library(fBasics); library(ggplot2)
set.seed(1)
# normal distribution
x1 <- rnorm(1e+06)
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)
# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)
다른 분포에 대한 다양한 테스트 결과를 얻은 후에 가장 효과적인 것을 비교할 수 있습니다. 예를 들어, 위의 Jarque-Bera 검정에 대한 p- 값은 정규 분포 (수용)에 대해 0.276을, 횡문에 대해 2.2e-16 미만을 반환했습니다 (널 가설 거부).
일반적으로 실제 Shapiro-Wilk는 상당히 작은 샘플에서 우수한 성능을 제공합니다.
내가 본 연구의 주요 경쟁자는 더 일반적인 Anderson-Darling입니다. 이것은 상당히 잘 수행되지만 더 나은 것이라고는 말할 수 없습니다. 어떤 대안이 귀하에게 관심이 있는지 명확히 할 수 있다면 통계가 더 좋을 것입니다. [편집 : 매개 변수를 추정하는 경우 AD 테스트를 조정해야합니다.]
[저는 작은 샘플에서 Jarque-Bera를 고려하지 말 것을 강력히 권장합니다 (통계 학적 원에서는 Bowman-Shenton으로 더 잘 알려져 있음)-작은 샘플 분포를 연구했습니다). 왜도 및 첨도의 점근 공동 분포는 없다 같은 것도 작은 샘플 배포 - 같은 방법으로 바나나가 훨씬 오렌지처럼 보이지 않는다. 또한 몇 가지 흥미로운 대안에 비해 전력이 매우 낮습니다. 예를 들어 첨도가 정규 분포에 가까운 대칭형 바이 모달 분포 를 선택할 수있는 전력이 낮 습니다.]
종종 사람들은 특히 좋은 이유가 아닌 것으로 판명 된 이유에 대해 적합도를 테스트하거나 실제로 대답하려는 질문 이외의 질문에 대답하고 있습니다.
예를 들어, 데이터가 실제로는 정상적이지 않다는 것을 거의 확실하게 알고 있기 때문에 답을 알고있는 질문에 답하려고 할 필요가 없으며 가설 검정 은 실제로 응답하지 않습니다 .
이미 정확한 정규성을 가지고 있지 않다는 것을 알고 있다면, 정규성에 대한 가설 검정은 실제로 "비표준의 양을 들어 올릴만큼 충분히 큰 표본 크기입니까?"라는 질문에 더 가까운 답을줍니다. 답변에 관심이있는 실제 질문은 대개 " 비정규 성이 내가 관심있는 다른 것들에 미치는 영향 "에 더 가깝습니다 . 가설 검정은 표본 크기를 측정하는 반면 답변에 관심이있는 질문은 표본 크기에 크게 의존하지 않습니다.
정규성 테스트가 의미가있는 경우가 있지만 이러한 상황은 작은 샘플에서 거의 발생하지 않습니다.
왜 정규성을 테스트하고 있습니까?
다음을 포함하여 정규성 테스트에 대한 전체 Wikipedia 범주 가 있습니다 .
AD가 아마도 그들 중 최고라고 생각합니다.
가장 최근에 여러 장소에 표시하지만 같은 사실에서 키퍼 연어 시험과 Jarque Bera 테스트는 매우 다른 여기에 - 간단한 강력한 접근 : 표준화 된 오류 배포판에 대한 순간 테스트 이순신 - 팅 첸합니다. Kiefer Salmon 테스트는 표준 Jarque Bera 테스트와 달리 ARCH 유형 오류 구조에있어 견고합니다. Yi-Ting Chen의 논문은 현재 최고의 테스트가 될 것으로 생각되는 것을 개발하고 논의합니다.
샘플 크기를 들어 <30 - 주제, 샤피로-Wilk은 강력한 힘을 가지고 간주됩니다 주의 , 그것은 타입 II 오류를 유도 할 수 있기 때문에, 시험의 유의 수준을 조정할 때! [1]