작은 샘플에 대한 적절한 정규성 테스트


22

지금까지 작은 표본의 정규성 가정을 테스트하기 위해 Shapiro-Wilk 통계를 사용했습니다.

다른 기술을 추천 해 주시겠습니까?


1
여기에 가능한 관심의 다른 몇 가지 질문은 다음과 같습니다 - 정상 - 테스트하고 - 본질적으로-쓸모없는 , 정상 테스트의 가치에 대한 논의를 위해, 무엇을-경우 - 잔차 - - 보통 - 분산되지만-Y-은 - 아니 , 토론을 위해 / 감각의 설명이있는 정상은 선형 모델의 가정이다.
gung-Monica Monica 복원

3
Shapiro-Wilk의 Wilk는 Martin B. Wilk를 나타냅니다. 특히 "와일"을 작성하는 것은 너무 쉽습니다. (a) 다른 사람이 말하거나 썼을 때 (b) 당신은 매우 다른 사람인 Samuel S. Wilks의 통계 작업에 대해 알고 있습니다 (c) 복수형 (통계, 고양이, 개 등)과 소유주 (들)에 대한 다른 용도를 고려할 때 영어로 터미널 "s"에 대해 혼동합니다. 이는 모국어가 영어 인 사람들에게도 공통입니다. 이 스레드를 가능한 한 편집했습니다. 댓글에 도달 할 수 없습니다.
Nick Cox

답변:


24

R ( rmetrics의 일부 )에 포함 된 fBasics 패키지 에는 몇 가지 정규성 테스트가 포함되어 있으며, 일반적인 테스트 (로고 로프-스 미르 노프, Shapiro-Wilk, Jarque-Bera 및 D' Agostino)와 함께 여러 가지 정규성 테스트가 포함되어 정상 테스트 를위한 래퍼가 있습니다. Anderson-Darling, Cramer-von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi-square 및 Shapiro–Francia와 같은 표준 패키지로 제공됩니다. 패키지 문서는 또한 모든 중요한 참고 자료를 제공합니다. 다음은 nortest 에서 테스트 를 사용하는 방법을 보여주는 데모입니다 .

시간이 있다면 한 가지 방법은 둘 이상의 테스트를 사용하고 동의를 확인하는 것입니다. 테스트는 여러 가지 방법으로 다양하므로 "최고"를 선택하는 것이 전적으로 쉬운 것은 아닙니다. 해당 분야의 다른 연구원들은 무엇을 사용합니까? 이것은 다를 수 있으며 다른 사람들이 귀하의 작업을 받아 들일 수 있도록 허용 된 방법을 고수하는 것이 가장 좋습니다. 나는 종종 이러한 이유로 Jarque-Bera 테스트를 사용하고 비교를 위해 Anderson-Darling을 사용합니다.

당신은 볼 수 있습니다 "단 변량 정규성에 대한 시험의 비교" (2002 Seier)과 "정상의 다양한 테스트의 비교" 문제의 비교 및 토론 (2007 Yolacan Yazici).

모든 분포 함수 덕분에 R에서 비교하기 위해 이러한 방법을 테스트하는 것도 쉽지 않습니다 . 다음은 시뮬레이션 된 데이터를 사용한 간단한 예입니다 (공간을 절약하기 위해 결과를 인쇄하지는 않습니다).

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

다른 분포에 대한 다양한 테스트 결과를 얻은 후에 가장 효과적인 것을 비교할 수 있습니다. 예를 들어, 위의 Jarque-Bera 검정에 대한 p- 값은 정규 분포 (수용)에 대해 0.276을, 횡문에 대해 2.2e-16 미만을 반환했습니다 (널 가설 거부).


고마워 셰인, 좋은 대답! 글쎄, 내 분야의 "다른 사람들"은 종종 SPSS를 사용하므로 콜 모고 로프-스 미르 노프 (정상 성을 확인하는 경우)를 사용하지만 IMHO Lilliefors의 테스트는 샘플에서 데이터를 수집 할 때 더 좋은 선택입니다 (파라미터가 알 수 없는). 나는 Shapiro-Wilk 's가 작은 샘플에 적합하고 "작은 샘플 정규성 테스트"에 대한 더 많은 정보를 얻고 싶었습니다 ... BTW, R에서 nortest를 사용합니다! =)
aL3xa

12

일반적으로 실제 Shapiro-Wilk는 상당히 작은 샘플에서 우수한 성능을 제공합니다.

내가 본 연구의 주요 경쟁자는 더 일반적인 Anderson-Darling입니다. 이것은 상당히 잘 수행되지만 더 나은 것이라고는 말할 수 없습니다. 어떤 대안이 귀하에게 관심이 있는지 명확히 할 수 있다면 통계가 더 좋을 것입니다. [편집 : 매개 변수를 추정하는 경우 AD 테스트를 조정해야합니다.]

[저는 작은 샘플에서 Jarque-Bera를 고려하지 말 것을 강력히 권장합니다 (통계 학적 원에서는 Bowman-Shenton으로 더 잘 알려져 있음)-작은 샘플 분포를 연구했습니다). 왜도 및 첨도의 점근 공동 분포는 없다 같은 것도 작은 샘플 배포 - 같은 방법으로 바나나가 훨씬 오렌지처럼 보이지 않는다. 또한 몇 가지 흥미로운 대안에 비해 전력이 매우 낮습니다. 예를 들어 첨도가 정규 분포에 가까운 대칭형 바이 모달 분포 를 선택할 수있는 전력이 낮 습니다.]

종종 사람들은 특히 좋은 이유가 아닌 것으로 판명 된 이유에 대해 적합도를 테스트하거나 실제로 대답하려는 질문 이외의 질문에 대답하고 있습니다.

예를 들어, 데이터가 실제로는 정상적이지 않다는 것을 거의 확실하게 알고 있기 때문에 답을 알고있는 질문에 답하려고 할 필요가 없으며 가설 검정 은 실제로 응답하지 않습니다 .

이미 정확한 정규성을 가지고 있지 않다는 것을 알고 있다면, 정규성에 대한 가설 검정은 실제로 "비표준의 양을 들어 올릴만큼 충분히 큰 표본 크기입니까?"라는 질문에 더 가까운 답을줍니다. 답변에 관심이있는 실제 질문은 대개 " 비정규 성이 내가 관심있는 다른 것들에 미치는 영향 "에 더 가깝습니다 . 가설 검정은 표본 크기를 측정하는 반면 답변에 관심이있는 질문은 표본 크기에 크게 의존하지 않습니다.

정규성 테스트가 의미가있는 경우가 있지만 이러한 상황은 작은 샘플에서 거의 발생하지 않습니다.

왜 정규성을 테스트하고 있습니까?


훌륭한 답변과 나중에 좋은 질문에 감사드립니다. 문제의 배경에 대한 통찰력을 얻는 것이 중요합니다. 글쎄, 나는 사람들이 t-test, Pearson 's r 또는 ANOVA를 사용하여 분포의 모양에 대해 전혀 알지 못하고 t-test를하는 것을 보았습니다. 내 관심 분야 인 심리학에서는 종종 작은 표본을 다루므로 적절한 정규성 검정이 필요합니다.
aL3xa

5
그러나 정상은 결코 만족 되지 않습니다 . 때로는 데이터에 대한 합리적인 설명이지만 실제로는 정상적이지 않습니다. 가정 할 때 비정규 성을 확인하는 것이 합리적이지만 테스트하는 것은 유용하지 않습니다 (위에서 설명한 이유로). 예를 들어 QQ 플롯을하지만 가설 테스트는이 상황에서 잘못된 질문에 대답합니다. 분포가 심하게 치우 치지 않으면 t- 검정과 anova는 일반적으로 합리적으로 잘 작동합니다. 더 나은 접근 방법은 정규성을 가정하지 않는 프로 시저 (리샘플링 기술)를 사용하는 것입니다.
Glen_b-복지국 Monica

또는 전력 소비가 적은 비용으로 비모수 적 테스트를 사용할 수 있습니다. 그리고 통계에서 절대적으로 만족되는 것은 없으며, 이는 단지 정규성 문제가 아닙니다. 그러나 부트 스트랩 또는 잭 나이 핑은 누군가 t- 테스트 및 / 또는 분산 분석 가정을 소개 할 때 해결책이 아닙니다. 리샘플링 기술이 정규성 문제를 전혀 해결하지 못한다고 생각합니다. 그래픽으로 (밀도 플롯, 상자 그림, QQplot, 히스토그램) 및 "숫자"(정상 테스트, 왜도, 첨도 등)의 정규성을 확인해야합니다. 당신은 무엇을 제안합니까? 이것은 주제에서 완전히 벗어 났지만 어떻게 ANOVA 정규성 가정을 확인 하시겠습니까?
aL3xa

@ aL3xa 난 당신의 연구 분야에서 무작위 배정 접근법이 더 적절하다고 생각합니다. 일반적인 모수 검정이 정확한 순열 검정에 대한 근사치를 제공한다는 사실에도 불구하고, 비모수 검정은 또한 일종의 가정 (예 : 분포 형태)을 암시합니다. 작은 표본 연구에서 정규 성과의 편차를 어떻게 정의 할 수 있을지 궁금합니다. 별도의 질문으로이 점에 대한 추가 논의를 요청해야한다고 생각합니다.
chl

10

다음을 포함하여 정규성 테스트에 대한 전체 Wikipedia 범주 가 있습니다 .

AD가 아마도 그들 중 최고라고 생각합니다.


1
나는 동의한다. 나는 AD 테스트, Jarque-Bera 및 Spiegelhalter 's test (1983)의 빠른 테스트를 null로 샘플 크기 8로 10,000 번 반복했습니다. AD 테스트는 공칭 거부율을 유지하고 균일 한 pval을 제공하지만 JB 테스트는 끔찍한 반면 Spiegelhalter는 중간에 있습니다.
shabbychef

1
@shabbychef Jarque-Bera 테스트는 샘플 왜도 및 첨도의 점근 적 정규성에 의존하며, 100s 미만의 n에서도 잘 작동하지 않습니다 . 하지만 Thadewald, T, 및 H. Buning, 2004 년 4.1에서와 같이 시뮬레이션 결과를 바탕으로 예를 들어 중요한 값을 조정할 수 있습니다 원하는 제거 속도를 얻기 위해, Jarque-Bera 테스트 및 정상 테스트를위한 경쟁 - 전력 비교 , 토론 종이 경제학 2004/9, 베를린 자유 대학교 경영 경제 학부.
Silverfish

3

완벽 성을 기하기 위해 계량 경제학자들은 1983 년 Economics Letters의 논문에서 키퍼 및 연어 테스트를 좋아합니다. 나는 대학원에 내가 쓴 R로 번역 할 수있는 오래된 C ++ 버전을 가지고 있습니다.

편집 : 그리고 여기 Jarque-Bera와 Kiefer-Salmon을 파생시키는 Bierens의 최근 논문이 있습니다.

편집 2 : 이전 코드를 살펴본 결과 Jarque-Bera와 Kiefer-Salmon 사이에서 동일한 테스트 인 것 같습니다.


2

가장 최근에 여러 장소에 표시하지만 같은 사실에서 키퍼 연어 시험과 Jarque Bera 테스트는 매우 다른 여기에 - 간단한 강력한 접근 : 표준화 된 오류 배포판에 대한 순간 테스트 이순신 - 팅 첸합니다. Kiefer Salmon 테스트는 표준 Jarque Bera 테스트와 달리 ARCH 유형 오류 구조에있어 견고합니다. Yi-Ting Chen의 논문은 현재 최고의 테스트가 될 것으로 생각되는 것을 개발하고 논의합니다.


4
Chen은 더 큰 데이터 세트에 중점을 둔 것으로 보입니다.이 테스트와 관련된 4 번째 및 6 번째 이상의 순간은 점근 적 수준으로 정착하는 데 시간이 걸리기 때문입니다. 그러나 분포 테스트는 일반적으로 250 개보다 작은 데이터 집합에 사용됩니다 (이 백서에서 검토 한 최소값). 실제로, 대부분의 데이터는 많은 양의 데이터로 인해 강력 해져서 그러한 응용 프로그램에서 생각할 것입니다. 아니면 내가보고있는 것보다 더 많은 일이 있습니까?
whuber

0

샘플 크기를 들어 <30 - 주제, 샤피로-Wilk은 강력한 힘을 가지고 간주됩니다 주의 , 그것은 타입 II 오류를 유도 할 수 있기 때문에, 시험의 유의 수준을 조정할 때! [1]


작은 샘플에서 적합도 테스트는 일반적으로 일반성을 거부 할 수 없습니다.
Michael R. Chernick

@MichaelChernick 그러면 특정한 경우 어떻게됩니까? 작은 작은 것이 "비정상"으로 분류되는 이유는 무엇입니까?
Aliakbar Ahmadi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.