정규성 테스트가 '필수적으로 쓸모없는'가요?


298

전직 동료가 한 번 나에게 다음과 같이 주장했다.

우리는 일반적으로 널 (null) 하에서 무조건 또는 거의 정상적인 랜덤 변수를 생성하는 공정 결과에 정규성 테스트를 적용 합니다 ( '무증상'부분은 우리가 만들 수없는 수량에 의존합니다). 저렴한 메모리, 빅 데이터 및 빠른 프로세서의 시대에 정규성 테스트는 항상 큰 (심지어 크지는 않지만) 샘플에 대한 정규 분포의 널을 거부 해야 합니다. 따라서 일반적으로 정규성 테스트는 유형 I 비율에 대한 전력이 낮고 제어력이 낮은 작은 샘플에 대해서만 사용해야합니다.

이것이 유효한 논쟁입니까? 이것은 잘 알려진 논쟁입니까? 정규성보다 '미성숙 한'귀무 가설에 대한 잘 알려진 검정이 있습니까?


23
참고로 : 나는 이것이 커뮤니티 위키가 필요하다고 생각하지 않습니다.
Shane

2
나는 '올바른 답'이 있는지 확신 할 수 없었습니다.
shabbychef

5
어떤 의미에서 이것은 유한 한 수의 매개 변수에 대한 모든 테스트에 해당됩니다. 함께 고정 (테스트 caried되는 파라미터의 개수) 및 어떤 점에서 한계 growthing없이, 두 그룹 간의 차이 (아무리 작은)는 항상 파괴 될 널. 실제로 이것은 베이지안 테스트에 찬성하는 주장입니다. nkn
user603

2
나를 위해, 그것은 유효한 논쟁이 아닙니다. 어쨌든, 대답을하기 전에 사물을 조금 공식화해야합니다. 당신이 틀렸을 수도 있고 지금은 아닐 수도 있습니다. 이제 여러분이 가진 것은 직관에 지나지 않습니다. 저에게 "저렴한 메모리, 빅 데이터 및 빠른 프로세서 시대에 정규성 테스트는 항상 정상의 널을 거부해야합니다" 설명이 필요합니다 :) 더 공식적인 정밀도를 부여하려고하면 대답이 간단하다고 생각합니다.
로빈 지라드

8
"가설 검정에 부적합한 큰 데이터 세트"의 스레드는이 질문의 일반화에 대해 설명합니다. ( stats.stackexchange.com/questions/2516/… )
whuber

답변:


229

논쟁이 아닙니다. 공식적인 정규성 테스트는 오늘날 우리가 다루고있는 거대한 샘플 크기에 대해 항상 거부한다는 사실은 (약간 강력하게 언급 된) 사실입니다. n이 커질 때 완벽한 정규성으로부터의 가장 작은 편차조차도 중요한 결과를 초래할 것임을 쉽게 증명할 수 있습니다. 또한 모든 데이터 세트에 어느 정도의 임의성이 있으므로 단일 데이터 세트가 완벽하게 정상적으로 분포 된 샘플은 아닙니다. 그러나 응용 통계에서 문제는 데이터 / 잔여 ...가 완벽하게 정상인지 여부가 아니라 가정이 수용하기에 정상인지 여부입니다.

Shapiro-Wilk 테스트로 설명하겠습니다 . 아래 코드는 정규성에 접근하지만 완전히 정상적이지 않은 분포 세트를 구성합니다. 다음으로, shapiro.test거의 정규 분포의 표본이 정규성과 이탈하는지 테스트 합니다. R에서 :

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

마지막 줄은 모든 표본 크기에 대한 시뮬레이션의 일부가 정규성과 크게 차이가 나는지 확인합니다. 따라서 Shapiro-Wilks에 따르면 사례의 87 %에서 5000 개의 관측치 샘플이 정규성과 크게 다릅니다. 그러나 qq 플롯을 보면 절대 정규 성과의 편차를 결정하지 않습니다. 아래는 한 세트의 무작위 샘플에 대한 qq-plots의 예입니다.

대체 텍스트

p- 값으로

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
참고로, 중심 한계 정리는 n이 큰 경우 많은 경우 정식 정규성 검사를 불필요하게 만듭니다.
Joris Meys

31
그렇습니다. 실제 질문은 데이터가 실제로 정규 분포되어 있는지 여부가 아니라 기본 정규 가정이 분석의 실제 목적에 합리적 일 정도로 충분히 정상이며, CLT 기반 논거가 일반적으로 [sic]라고 생각했을 것입니다 충분합니다.
Dikran Marsupial

53
이 답변은 질문을 다루지 않는 것으로 보입니다 . SW 테스트가 명목상의 신뢰 수준을 달성하지 못했음을 보여주기 때문에 해당 테스트 (또는 적어도 R구현시)의 결함을 식별합니다 . 그러나 이것이 전부입니다. 일반적으로 정규성 테스트의 유용성 범위와 관련이 없습니다. 정규성 테스트가 항상 큰 표본 크기에서 기각한다는 초기 주장은 간단하지 않습니다.
whuber

19
@whuber이 답변은 질문을 해결합니다. 문제의 요점은 "정상 근방"의 "근처"입니다. SW는 정규 분포에서 표본이 추출 될 가능성을 테스트합니다. 내가 만든 분포가 의도적으로 정상적이지 않기 때문에 SW 테스트가 약속 한대로 수행 할 것으로 예상됩니다. null을 거부합니다. 요점은이 편차가 큰 표본에서 무의미하다는 것입니다. 정규 성과의 편차로 인해 전력이 손실되지 않기 때문입니다. 따라서 QQplots가 보여 주듯이 테스트는 정확하지만 의미가 없습니다.
Joris Meys

11
나는 당신이 쓴 것에 의존하고 "거의 정상"배포가 의미하는 바를 오해했습니다. 지금은 볼 수 -하지만 단지 코드를 읽고 신중하게 테스트하여 - 당신이에 수단이 세 가지 표준 정규 분포에서 시뮬레이션되는 과 과에서 결과를 결합 비율. 이 경우 정규성 테스트를 통해 null을 거부 하기 를 원하지 않습니까? 당신이 효과적으로 보여준 것은 QQ 플롯이 그러한 혼합물을 잘 감지하지 못한다는 것입니다. 1 , 2 2 : 2 : 10, 1,22:2:1
whuber

172

정규성 테스트가 '필수적으로 쓸모가 없는지'에 대해 생각할 때는 먼저 무엇이 유용한 지 생각해야합니다. 많은 사람들 (최소한, 많은 과학자들)은 정규성 테스트가 답하는 질문을 오해합니다.

질문 정규성 테스트 답변 : 가우스 이상과의 편차에 대한 확실한 증거가 있습니까? 실제 데이터 세트의 크기가 보통이면 거의 항상 그렇습니다.

과학자들은 종종 정규성 검정이 다음과 같이 대답 할 것으로 기대합니다. 과학자들은 정규성 테스트가 기존 (ANOVA 등) 테스트를 포기하고 대신 변환 된 데이터를 분석하거나 순위 기반 비모수 테스트 또는 리샘플링 또는 부트 스트랩 접근법을 사용하는 시점을 결정하는 심판이되기를 원합니다. 이를 위해 정규성 테스트는 그다지 유용하지 않습니다.


16
유익하고 유익한 답변을 얻으려면 +1하십시오. 나는 그것이 유용 (: 나는 문득 자신을 경험 한 일반적인 오해에 대한 좋은 설명보기 위해 찾아 stats.stackexchange.com/questions/7022/...을 ). 내가 놓친 것은이 일반적인 오해에 대한 대안 솔루션입니다. 정규성 검정이 잘못된 길을 가면 정규 근사가 수용 가능한지 또는 정당화되는지 어떻게 확인합니까?
posdef

6
분석가 (또는 연구자 / 과학가)의 (상식적인) 의미를 대신 할 수는 없습니다. 그리고 경험하십시오 (시도하고 보아서 배우십시오 : 그것이 정상이라고 가정하면 어떤 결론을 얻습니까? 그렇지 않으면 차이점은 무엇입니까?). 그래픽은 가장 친한 친구입니다.
FairMiles

2
나는이 논문이 마음에 든다. Micceri, T. (1989). 유니콘, 일반 곡선 및 기타 불가능한 생물. 심리 게시판, 105 (1), 156-166.
Jeremy Miles

4
그래픽을 보는 것은 좋지만 수동으로 검사하기에 너무 많은 것이 있다면 어떨까요? 가능한 문제 지점을 지적하기 위해 합리적인 통계 절차를 공식화 할 수 있습니까? 나는 큰 규모의 A / B의 실험자 같은 상황을 생각 해요 : exp-platform.com/Pages/...를 .
dfrankow

118

정규성 검사는 그래픽 검사의 동반자로서 유용 할 수 있다고 생각합니다. 그러나 올바른 방법으로 사용해야합니다. 내 생각에 이것은 Shapiro-Wilk, Anderson-Darling 및 Jarque-Bera 테스트와 같은 많은 인기있는 테스트를 사용해서는 안된다는 것을 의미합니다.

내 견해를 설명하기 전에 몇 가지 언급을하겠습니다.

  • 흥미로운 최근 논문에서 Rochon et al. Shapiro-Wilk 테스트가 2- 표본 t- 테스트에 미치는 영향을 연구했습니다. 예를 들어 t- 검정을 수행하기 전에 정규성을 테스트하는 2 단계 절차에는 문제가 없습니다. 다시, t- 검정을 수행하기 전에 정규성을 그래픽으로 조사하는 2 단계 절차도 마찬가지입니다 . 차이점은 후자의 영향을 조사하기가 훨씬 어렵다는 것입니다 (통계 학적으로 번 정도의 정규성을 조사하려면 통계학자가 필요하기 때문에 ...).100,000
  • 예를 들어 공식 테스트를 원하지 않더라도 샘플 왜도를 계산하여 비정규 성정량화하는 것이 유용합니다 .
  • 다변량 정규성은 그래픽으로 평가하기 어려울 수 있으며, 다변량 통계의 경우 점근 분포에 대한 수렴이 느려질 수 있습니다. 따라서 다변량 설정에서 정규성 검정이 더 유용합니다.
  • 정규성 검정은 통계를 일련의 블랙 박스 방법으로 사용하는 실무자에게 특히 유용합니다 . 정규성이 기각 될 경우, 실무자는 경각심을 가져야하며 정규성을 가정하여 표준 절차를 수행하는 대신 비모수 적 절차를 사용하거나 변환을 적용하거나보다 숙련 된 통계 전문가와상의하는 것이 좋습니다.
  • 다른 사람들이 지적했듯이 이 충분히 크면 CLT는 일반적으로 하루를 절약합니다. 그러나 "충분히 큰"항목은 배포 클래스에 따라 다릅니다.n

(제 정의에서) 정규성에 대한 테스트는 해당 클래스의 대안에 민감하지만 다른 클래스의 대안에 민감하지 않은 경우 대안 클래스에 대해 지시됩니다. 전형적인 예는 비대칭 또는 첨도 대안에 대한 테스트입니다 . 가장 간단한 예제는 샘플 왜도 및 첨도를 테스트 통계로 사용합니다.

지시 된 정규성 검사는 옴니버스 검사 (예 : Shapiro-Wilk 및 Jarque-Bera 검사)보다 종종 선호됩니다 . 특정 비정규 성 유형 만 특정 추론 적 절차에 관심이 있기 때문에 일반적입니다 .

Student 's t-test를 예로 들어 봅시다. 왜도 및 (과도한) 첨도경우 그 평균에 대한 대칭 . 두 및 정규 분포 0입니다.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

규칙적 가정 하에서 검정 통계량 의 cdf에 대해 다음과 같은 점근 확장 을 . Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

여기서 는 cdf이고 는 표준 정규 분포의 pdf입니다.Φ()ϕ()

γ 는 용어 에서 처음으로 나타나는 반면 는 용어 에서 나타납니다 . 의 점근 적 성능 은 첨도 형태보다 왜곡 형태의 정규성 편차에 훨씬 더 민감합니다.n1/2κn1 T nTn

작은 에서도 마찬가지임을 시뮬레이션을 사용하여 확인할 수 있습니다 . 따라서 스튜던트 t- 검정은 왜도에 민감하지만 두꺼운 꼬리에 대해서는 상대적으로 견고 하므로 t- 검정을 적용하기 전에 기울기 대안에 대한 정규성 검정을 사용하는 것이 합리적 입니다.n

A와 엄지 손가락의 규칙 ( 없는 자연의 법칙), 수단에 대한 추론은 첨도에 민감 차이에 대해 왜도 및 추론에 민감합니다.

정규성에 대한 직접 테스트를 사용하면``위험한 ''대안에 대해 더 높은 검정력을 얻고``위험한 ''덜 대안에 대해 더 낮은 검정력을 얻는 이점이 있습니다. 즉, 정규성에서 벗어난 규칙으로 인해 정규성을 거부 할 가능성이 적습니다. 우리의 추론 절차의 수행에는 영향을 미치지 않습니다. 비정규 성은 당면한 문제와 관련이있는 방식으로 정량화됩니다. 이것은 항상 그래픽 적으로 쉬운 일이 아닙니다.

으로 커질수록, 왜도 및 첨도는 덜 중요하게 - 감독 시험이 수량도 적은 양에 의해 0에서 벗어나는 경우 감지 할 가능성이 높다. 이러한 경우, 예를 들어 또는 (위 확장의 첫 번째 용어를보고) 테스트하는 것이 합리적 입니다. 대신 인지 여부 . 이것은 이 커짐에 따라 우리가 직면하는 문제 중 일부를 처리합니다 .n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
이제 이것은 좋은 대답입니다!
user603

10
그러나 이것은 받아 들여질 환상적인 답변이어야합니다.
jenesaisquoi

2
"일부 비정규 성 유형 만 특정 추론 절차에 관심을 갖는 것이 일반적입니다." 물론 그 유형의 비정규성에 대한 테스트를 사용해야합니다. 그러나 정규성 검정을 사용한다는 사실은 그가 정규성의 모든 측면에 관심이 있다는 것을 의미합니다 . 문제는 :이 경우 정상 테스트는 좋은 옵션입니다.
rbm

특정 검정에 대한 가정의 충분성에 대한 검정이 보편화되고 있으며, 이로 인해 일부 추측이 제거됩니다.
Carl

1
@Carl : 그것에 대한 참고 문헌 / 예제를 추가 할 수 있습니까?
kjetil b halvorsen

58

IMHO 정규성 테스트는 다음과 같은 이유로 전혀 쓸모가 없습니다.

  1. 작은 표본의 경우 모집단의 실제 분포가 실질적으로 비정규적일 수 있지만 정규성 검정이이를 강력하게 선택하지는 않습니다.

  2. 큰 표본에서 T- 검정 및 분산 분석과 같은 것은 비정규성에 상당히 강합니다.

  3. 정규 분포 분포 모집단의 전체 아이디어는 어쨌든 편리한 수학적 근사치입니다. 일반적으로 통계적으로 처리 된 수량 중 어느 것도 모든 실수를지지하는 분포를 가지고있을 수 없습니다. 예를 들어 사람들은 음의 높이를 가질 수 없습니다. 우주에있는 것보다 음의 질량 또는 그 이상의 질량을 가질 수 없습니다. 따라서 말을 안전 아무것도 됩니다 정확히 일반적으로 현실 세계에 배포하지 않습니다.


2
전위차는 음수 일 수있는 실제 수량의 예입니다.
니코

16
@nico : 음수 일 수는 있지만, 우주에는 너무 많은 양성자와 전자가 있기 때문에 유한 한 한계가 있습니다. 물론 이것은 실제로 관련이 없지만 내 요점입니다. 정확히 정규 분포 된 것은 없지만 (모델이 잘못됨) 충분히 근접한 것이 많이 있습니다 (모델이 유용함). 기본적으로 모델이 잘못되었다는 것을 이미 알고 있으며 null을 거부하거나 거부하지 않으면 기본적으로 유용 여부에 대한 정보를 제공하지 않습니다.
dsimcha

1
@ dsimcha-나는 정말 통찰력 있고 유용한 답변을 찾았습니다.
rolando2

5
t

@dsimcha "모델이 잘못되었습니다." 그래도 모든 모델이 "잘못된"것은 아닙니까?
Atirag

30

정규성을위한 사전 테스트 (그래픽을 사용한 비공식 평가 포함)가 그 요점을 놓치고 있다고 생각합니다.

  1. 이 방법을 사용하는 사용자는 정규성 평가가 1.0에 가까운 검정력을 가졌다 고 가정합니다.
  2. Wilcoxon, Spearman 및 Kruskal-Wallis와 같은 비모수 테스트는 정규성이 유지되는 경우 0.95의 효율을 갖습니다.
  3. 2를 고려할 때, 정규 분포에서 데이터가 발생하지 않을 가능성이있는 경우에도 비모수 적 테스트의 사용을 미리 지정할 수 있습니다.
  4. YY

0.95의 효율성이 있습니다 점근 : (일반적으로 인정 하듯이 내가이 공부도 그것을 자신을 탐구하는 노력 보지 못했다하더라도) FWIW 나는 ... 효율이 전형적인 유한 표본 크기에 대한 훨씬 낮은 것으로 추측에는 요
벤 Bolker

16

테스트 또는 정규성에 대한 대략적인 검사가 "유용한 지"여부를 묻기 전에 질문 뒤에있는 질문에 대답해야합니다. "왜 묻습니까?"

예를 들어, 데이터 집합의 평균 에 대해 신뢰 한계를 설정 하려는 경우 보유하고있는 데이터의 양과 이탈의 크기에 따라 정규성에서 이탈하는 것이 중요하거나 중요하지 않을 수 있습니다. 그러나 향후 관측 또는 표본 추출에서 가장 극단적 인 가치가 무엇인지 예측하려면 정규성에서 벗어나는 것이 중요합니다.


12

나 하나의 작은 일을 추가하자
계정으로 알파 - 오류를 복용하지 않고 정상 테스트를 수행하면 알파 오류를 수행하는 전반적인 확률을 좋아할.

알파 오류 누적을 제어하지 않는 한 각 추가 테스트에서이 작업을 수행한다는 사실을 잊지 마십시오. 따라서 정규성 테스트를 해제해야하는 또 다른 좋은 이유입니다.


먼저 정규성 테스트를 수행 한 다음 해당 테스트 결과를 사용하여 다음에 수행 할 테스트를 결정하는 상황을 참조한다고 가정합니다.
Harvey Motulsky

3
특정 방법을 사용하는 것이 적절한 지 여부를 결정하는 방법으로 사용될 때 정규성 테스트의 일반적인 유용성을 참조합니다. 이러한 경우에 적용하면 알파 오류가 발생할 확률과 관련하여 알파 오류 누적을 피하기 위해보다 강력한 테스트를 수행하는 것이 좋습니다.
Henrik

4
H0

3
정규성 테스트에서 유형 I 오류를 증가시킬 수있는 또 다른 방법은 "알파 오류를 수행 할 전체 확률"에 대해 이야기하는 것입니다. 테스트 자체에는 오류율이 있으므로 전체적으로 오류가 발생할 가능성이 높아집니다. 한 가지 작은 일 에 중점을 두었습니다 .
Nick Stauner

2
@NickStauner 정확하게 전달하고 싶은 내용입니다. 이 점을 더 명확하게 해주셔서 감사합니다.
Henrik

11

여기에 대한 답변은 이미 몇 가지 중요한 사항을 다루었습니다. 빠르게 요약하려면 :

  • 데이터 집합이 실제로 분포를 따르는 지 여부를 결정할 수있는 일관된 테스트는 없습니다.
  • 테스트는 데이터와 모델을 육안으로 검사하여 활용도가 높고 영향력이 큰 관측 값을 식별하고 모델에 미치는 영향에 대해 설명합니다.
  • 많은 회귀 루틴에 대한 가정은 종종 정규 분포 "데이터"[잔여 물]을 요구하는 것으로 잘못 인용되며, 이는 초보자 통계 학자에 의해 분석가가 분석을 진행하기 전에이를 공식적으로 어떤 의미에서 평가할 것을 요구하는 것으로 해석됩니다.

나는 개인적으로, 가장 많이 접근하고 가장 많이 읽은 통계 기사 중 하나를 인용하기 위해 먼저 답변을 추가하고있다 : " Lumley et al.의" 대규모 공중 보건 데이터 세트에서 정상 가정의 중요성 "" 알. 전체적으로 읽을 가치가 있습니다. 요약 내용은 다음과 같습니다.

t- 검정과 최소 제곱 선형 회귀는 충분히 큰 표본에서 정규 분포를 가정하지 않아도됩니다. 이전의 시뮬레이션 연구에 따르면 "충분히 큰"은 종종 100 미만이며, 심지어 비정규 의료 비용 데이터의 경우에도 500 미만입니다. 이는 표본이 종종 이보다 큰 공공 보건 연구에서 t를 의미합니다. -test와 선형 모형은 정규 분포를 갖는 것뿐만 아니라 여러 유형의 데이터에서 차이와 경향을 분석하는 데 유용한 기본 도구입니다. 정규성에 대한 공식 통계 검정은 분포가 중요한 작은 샘플에서 낮은 전력을, 분포가 중요하지 않은 큰 샘플에서만 높은 전력을 가지므로 특히 바람직하지 않습니다.

선형 회귀의 대표 본 특성은 잘 이해되어 있지만 정규성 가정이 중요하지 않은 데 필요한 표본 크기에 대한 연구는 거의 없습니다. 특히, 필요한 표본 크기가 모형의 예측 변수 수에 어떻게 의존하는지는 명확하지 않습니다.

정규 분포에 중점을두면 이러한 방법의 실제 가정에서 벗어날 수 있습니다. 선형 회귀 분석에서는 결과 변수의 분산이 거의 일정하다고 가정하지만 두 방법 모두 기본 변수는 결과 변수의 평균 변화를 조사하기에 충분하다고 가정합니다. 분포에 대한 다른 요약이 더 관심이있는 경우 t- 검정과 선형 회귀가 적절하지 않을 수 있습니다.

요약하자면, 정상 성은 일반적으로 특정 과학적 질문에 대답하는 것의 중요성과 대조적으로 토론이나 관심의 가치가 없습니다. 데이터의 평균 차이요약 하려는 경우 t- 검정과 분산 분석 또는 선형 회귀 분석이 훨씬 넓은 의미로 정당화됩니다. 이러한 모델을 기반으로 한 검정은 분포 가정이 충족되지 않더라도 전력에 부정적인 영향을 줄 수있는 경우에도 올바른 알파 수준을 유지합니다.

정규 분포가주의를받는 이유는 분산 분석에 대한 F- 분포 및 T- 검정에 대한 Student-T- 분포에 기반한 정확한 테스트를 얻을 수있는 고전적인 이유 일 수 있습니다. 진실은 많은 현대 과학 발전 중에서 우리가 일반적으로 이전에 수집 한 것보다 더 큰 데이터 세트를 처리한다는 것입니다. 실제로 작은 데이터 세트를 다루는 경우 해당 데이터가 정상적으로 배포된다는 이론적 근거는 해당 데이터 자체에서 나올 수 없습니다. 단순히 충분한 힘이 없습니다. 다른 연구, 복제, 또는 측정 과정의 생물학 또는 과학에 대한 언급은 관측 된 데이터의 근본이되는 가능성 모델을 논의하는 데 훨씬 더 정당한 접근법이라고 생각합니다.

이러한 이유로 대안으로 순위 기반 테스트를 선택하면 요점이 완전히 사라집니다. 그러나, jackknife 또는 부트 스트랩과 같은 강력한 분산 추정값을 사용하면 독립성 또는 동일한 오류 분포와 같은 모델 사양을 다양하게 위반하여 테스트를 수행 할 수있는 중요한 계산 대안을 제공한다는 데 동의합니다.


10

내가 사용하는 정상의 시험이 완전히 쓸모 있다고 생각.

그러나 지금은 다른 연구자들과 상담하고 있습니다. 종종 샘플을 얻는 것이 매우 비싸므로 n = 8로 추론하기를 원할 것입니다.

이 경우 비모수 검정에서는 통계적 유의성을 찾기가 매우 어렵지만 n = 8 인 t- 검정은 정규성 편차에 민감합니다. 따라서 우리는 "정상 가정에 따라 조건부로 통계적으로 유의미한 차이를 발견합니다"라고 말할 수 있습니다 (걱정하지 마십시오. 일반적으로 파일럿 연구입니다 ...).

그런 다음 그 가정을 평가할 방법이 필요합니다. 나는 캠프에서 음모를 보는 것이 더 나은 방법이라는 반쯤 있습니다. 그러나 그것에 대해 많은 의견이 일치하지 않을 수 있다는 사실을 알고 있습니다. 원고 검토 자.

여러면에서, 나는 정규성 검정에 여전히 많은 결점이 있다고 생각합니다. 예를 들어, 우리는 유형 I보다 유형 II 오류에 대해 생각해야합니다. 그러나 그것들에 대한 필요성이 있습니다.


여기서의 주장은 테스트가 이론 상으로는 쓸모가 없다는 것입니다. 이론적으로, 우리는 항상 원하는만큼 많은 샘플을 얻을 수 있습니다. 데이터가 최소한 어느 정도 정규성에 가깝다는 것을 증명하려면 테스트가 필요합니다.
SmallChess

2
좋은 지적. 나는 당신이 의미하는 바, 그리고 확실하게 믿는 것은 정규성 편차 측정이 가설 검정보다 중요하다는 것입니다.
Cliff AB

비모수 적 테스트로 전환하지 않고 p- 값 (조건부 사전 테스트에 의해 무효화 된)을 해석하려고 시도하는 한 괜찮을까요?!
Björn

2
정규성 검정의 검정력은 n = 8에서 매우 낮습니다. 특히, 작은 표본 크기 (시험에 의해 또는 시각적으로)에서 검출하기가 매우 어렵다고 가정하는 시험의 특성에 실질적으로 영향을 미치는 정규성 편차.
Glen_b

1
@Glen_b : 동의합니다; 나는이 감정이 타입 I보다는 타입 II 오류에 대해 더 많은 관심을 갖고 있다고 생각한다. 나의 요점은 정규성을 테스트 할 실제 세계가 있다는 것이다. 현재 도구가 실제로 그 요구를 충족시키는 지 여부는 다른 질문입니다.
Cliff AB

10

가치있는 것을 위해, 나는 잘린 정규 분포에 대한 빠른 샘플러 를 개발했으며 , 정규성 테스트 (KS)는 함수 디버깅에 매우 유용했습니다. 이 샘플러는 거대한 샘플 크기로 테스트를 통과했지만 흥미롭게도 GSL의 ziggurat 샘플러는 그렇지 않았습니다.


8

당신이 준 주장은 의견입니다. 정규성 테스트의 중요성은 데이터가 정상에서 크게 벗어나지 않도록하는 것입니다. 때로는 추론 절차에 파라 메트릭 테스트와 비 파라 메트릭 테스트 중 어느 것을 사용할지 결정하기 위해 사용합니다. 나는 중간 한계 정리가 적용되지 않을 때 중간 및 큰 샘플에서 테스트가 유용 할 수 있다고 생각합니다. 나는 Wilk-Shapiro 또는 Anderson-Darling 테스트를 사용하는 경향이 있지만 SAS를 실행하면 모든 것을 얻을 수 있으며 일반적으로 꽤 잘 동의합니다. 다른 메모로는 QQ 플롯과 같은 그래픽 절차가 동일하게 작동한다고 생각합니다. 공식 테스트의 장점은 객관적이라는 것입니다. 작은 표본에서 이러한 적합도 검정은 실질적으로 아무런 힘이 없으며 정규 분포의 작은 표본이 우연히 정상이 아닌 것처럼 보일 수 있고 시험에서 설명되기 때문에 직관적 인 의미가 있습니다. 또한 많은 비정규 분포를 정규 분포와 구별하는 높은 왜도 및 첨도는 작은 샘플에서 쉽게 볼 수 없습니다.


2
확실히 그렇게 사용할 수 있지만 QQ-Plot보다 더 객관적이라고 생각하지 않습니다. 테스트에서 주관적인 부분은 데이터가 비정규 데이터인지 결정하는 시점입니다. p = 0.05에서 큰 샘플을 제거하면 과도 할 수 있습니다.
Erik

4
사전 테스트 (여기에서 제안)는 전체 프로세스의 유형 I 오류율을 무효화 할 수 있습니다. 선택한 테스트의 결과를 해석 할 때 사전 테스트가 수행되었다는 사실을 고려해야합니다. 보다 일반적으로, 실제로 관심이있는 귀무 가설을 테스트하기 위해 가설 검정을 유지해야합니다. 즉, 변수간에 연관성이 없습니다. 데이터가 정확히 Normal이라는 귀무 가설은이 범주에 속하지 않습니다.
손님

1
(+1) 여기에는 훌륭한 조언이 있습니다. Erik은 "객관적인"사용으로 Michael의 권리를 깨달을 때까지 너무나 놀랐습니다. 동일한 데이터에 대해 동일한 테스트를 올바르게 수행하는 두 사람은 항상 동일한 p- 값을 얻지 만 동일한 QQ 플롯을 다르게 해석 할 수 있습니다. 게스트 : 유형 I 오류에 대한주의 사항에 감사합니다. 그러나 왜 데이터 배포에 신경 쓰지 않아야합니까? 종종 그것은 흥미롭고 귀중한 정보입니다. 적어도 데이터가 테스트에서 가정 한 내용과 일치하는지 알고 싶습니다!
whuber

1
나는 매우 동의하지 않습니다. 두 사람 모두 동일한 QQ 플롯과 p- 값을 얻습니다. p- 값을 해석하려면 표본 크기와 정규성 위반을 고려해야합니다. 따라서 p- 값으로 수행 할 작업을 결정하는 것은 주관적입니다. p- 값을 선호하는 이유는 데이터가 완벽한 정규 분포를 따를 수 있다고 생각하기 때문입니다. 그렇지 않으면 p- 값이 표본 크기에 얼마나 빨리 떨어지는 지 의문입니다. 더구나, 샘플 크기가 적당하면 QQ 플롯은 거의 동일하게 보이고 더 많은 샘플에서 안정적으로 유지됩니다.
에릭

1
Erik, 테스트 결과와 그래픽에 해석이 필요하다는 데 동의합니다. 그러나 테스트 결과는 숫자 이며 이에 대한 논쟁은 없습니다. 그러나 QQ 플롯은 여러 설명을 인정합니다. 각각 객관적으로 정확할 수 있지만주의를 기울여야 할 것은 선택입니다. 그것이 "주관적"이라는 의미입니다. 결과는 절차 자체 만이 아니라 분석가에 달려 있습니다. 예를 들어, "객관성"이 중요한 관리도 및 정부 규제와 같이 다양한 설정에서 기준은 수치 테스트를 기반으로 하며 결코 그래픽 결과를 나타내지 않습니다.
whuber

7

최대 엔트로피 접근 방식이 여기에 유용 할 수 있다고 생각합니다. 데이터가 "정규 분포 됨"(즉, 그 의미가 무엇이든) 또는 거의 동일한 크기의 편차 만 예상하기 때문에 정규 분포를 할당 할 수 있습니다. 또한 정규 분포에는 두 개의 충분한 통계가 있으므로 이러한 양을 변경하지 않는 데이터의 변경에는 영향을받지 않습니다. 어떤 의미에서 정규 분포는 동일한 첫 번째와 두 번째 모멘트를 갖는 모든 가능한 분포에 대한 "평균"으로 생각할 수 있습니다. 이것은 최소 제곱 잘 작동하는 이유 중 하나를 제공합니다 .


개념의 좋은 브리징. 또한 그러한 배포가 중요한 경우 데이터 생성 방법에 대해 생각 하는 것이 훨씬 더 중요하다는 데 동의합니다 . 우리는 혼합 모델을 피팅 할 때이 원칙을 적용합니다. 반면에 농도 또는 비율은 항상 비뚤어집니다. 나는 "정상적으로 ... 변화에 민감하지 않다"고 말하면 모양 / 스케일의 변화에 ​​변하지 않는 것을 의미한다.
AdamO

7

나는 그것이 쓸모 없다고 말하지는 않지만 실제로 응용 프로그램에 달려 있습니다. 데이터가 어디에서 나오는지 알 수 없으며, 당신이 가진 모든 것은 작은 실현입니다. 표본 평균은 표본에서 항상 유한하지만 일부 유형의 확률 밀도 함수에서는 평균이 정의되지 않거나 무한 할 수 있습니다. 3 가지 유형의 Levy 안정 분포, 즉 정규 분포, Levy 분포 및 Cauchy 분포를 고려해 봅시다. 대부분의 표본에는 꼬리에 많은 관측치가 없습니다 (예 : 표본 평균에서 멀어짐). 따라서 경험적으로이 세 가지를 구분하기가 매우 어렵 기 때문에 Cauchy (정의되지 않은 평균값)와 Levy (무한한 평균값)는 정규 분포로 쉽게 가장 할 수 있습니다.


1
"... 경험적으로는 ... 매우 어렵다"주장 것으로 보인다 대하여 보다는, 대한 , 분배 테스트. 이것은 배포 테스트에 실제로 사용된다는 내용을 소개하는 단락에서 읽히는 것이 이상합니다. 그렇다면 여기서 실제로 무엇을 말하려고합니까?
whuber

3
나는 그것에 반대하지만, 가능한 시나리오의 전체 세트를 알지 못하므로 쓸모 없다고 말하는 것보다 조심하고 싶습니다. 정규성 가정에 의존하는 많은 테스트가 있습니다. 정규성 테스트가 쓸모 없다고 말하는 것은 본질적으로 올바른 것을 사용 /하고 있는지 확실하지 않다고 말하는 모든 통계적 테스트를 취소하는 것입니다. 이 경우에는 수행하지 말아야합니다.이 큰 통계 섹션을 수행해서는 안됩니다.
kolonel

감사합니다. 그 의견의 말은 원래의 대답보다 질문에 더 초점을 맞추는 것 같습니다! 귀하의 의견과 조언을보다 명확하게하기 위해 어느 시점에서 답변을 업데이트하는 것을 고려할 수 있습니다.
whuber

@whuber 문제 없습니다. 편집을 추천 할 수 있습니까?
kolonel

두 개의 게시물 (답과 의견)을 결합한 다음 접선이 될 수있는 모든 자료를 제거 (또는 부록으로 강등하거나 명확하게하는 것) 할 수 있습니다. 예를 들어, 정의되지 않은 수단에 대한 언급은 아직 의문의 여지가없는 것이므로 다소 의문의 여지가 있습니다.
whuber

7

처음 2 개의 질문에 대한 답변이 철저했지만 3 번 문제는 해결되지 않았다고 생각합니다. 많은 테스트에서 경험적 분포를 알려진 가설 분포와 비교합니다. Kolmogorov-Smirnov 테스트의 임계 값은 F가 완전히 지정되었음을 기반으로합니다. 모수가 추정 된 모수 분포에 대해 테스트하도록 수정할 수 있습니다. 따라서 fuzzier가 두 개 이상의 매개 변수를 추정하는 것을 의미한다면 질문에 대한 대답은 그렇습니다. 이 테스트는 3 가지 매개 변수 패밀리 이상에 적용될 수 있습니다. 일부 테스트는 특정 배포 제품군에 대해 테스트 할 때 성능이 향상되도록 설계되었습니다. 예를 들어 정규성을 검정 할 때 귀무 가설 분포가 정규일 경우 Anderson-Darling 또는 Shapiro-Wilk 검정은 KS 또는 카이 제곱보다 큰 검정력을 갖습니다.


5

높은 p- 값으로 분석에 중요한 "무언가"를 지원하는 테스트는 잘못된 방향으로 생각됩니다. 다른 사람들이 지적했듯이, 큰 데이터 세트의 경우 0.05 미만의 p- 값이 보장됩니다. 따라서 테스트는 기본적으로 작고 퍼지 된 데이터 세트에 대해서는 "보상"하고 증거가 부족한 경우에는 "보상"합니다. qq 플롯과 같은 것이 훨씬 더 유용합니다. 항상 (예 / 아니오 / 정상이 아님) 이와 같은 것을 결정하기 어려운 어려운 숫자에 대한 열망은 모델링이 부분적으로 예술이며 가설이 실제로 어떻게 뒷받침되는지를 놓치고 있습니다.


2
거의 정상인 큰 표본은 p- 값이 낮고, 정상적이지 않은 작은 표본은 종종 그렇지 않습니다. 큰 p- 값이 유용하다고 생각하지 않습니다. 다시, 그들은 증거의 부족에 대해 보상합니다. 수백만 개의 데이터 포인트를 가진 샘플을 가질 수 있으며,이 테스트에서는 정규 가정을 거의 거부하지만 더 작은 샘플은 그렇지 않습니다. 따라서 유용하지 않습니다. 내 생각에 결함이 있다면이 시점에서 연역적 추론을 사용하여 보여주십시오.
wvguy8258

이것은 전혀 질문에 대답하지 않습니다.
SmallChess

-2

내가 언급하지 않은 정규성 테스트를 잘 사용하는 한 가지 방법은 z- 스코어를 사용하는 것이 올바른지 확인하는 것입니다. 모집단에서 무작위 표본을 선택하고 모집단에서 하나의 무작위 개체를 선택할 확률을 찾고 80 이상의 값을 얻는다고 가정합니다. z- 점수를 사용하기 때문에 모집단 분포가 정상이라고 가정하기 때문에 분포가 정규 인 경우에만 수행 할 수 있습니다.

그러나 나는 이것이 또한 논쟁의 여지가있는 것을 볼 수 있다고 생각합니다 ...


무엇의 가치? 평균, 합계, 분산, 개별 관측치? 마지막 것만이 분포의 가정 된 정규성에 의존합니다.
whuber

나는 개인을 의미했다
Hotaka

2
감사. 그러나 귀하의 답변은 너무 모호하여 귀하가 어떤 절차를 언급하고 있는지 결론을 내리기가 어렵고 결론이 유효한지 평가하는 것은 불가능합니다.
whuber

2
이 사용의 문제는 다른 사용의 경우와 동일합니다. 테스트는 샘플 크기에 따라 달라 지므로 본질적으로 쓸모가 없습니다. z 점수를 사용할 수 있는지 여부는 알려주지 않습니다.
Peter Flom
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.