매우 작은 표본 크기 (예 : n = 6)로 정규성을 테스트하는 것이 의미가 있습니까?


26

표본 크기는 6입니다. 이러한 경우 Kolmogorov-Smirnov 검정을 사용하여 정규성을 검정하는 것이 합리적입니까? 나는 SPSS를 사용했다. 각 샘플을 얻는 데 시간이 걸리기 때문에 샘플 크기가 매우 작습니다. 의미가 없다면 테스트하기에 가장 적은 수의 샘플이 몇 개입니까?

참고 : 소스 코드와 관련된 실험을했습니다. 샘플은 소프트웨어 버전 (버전 A) 에서 코딩하는 데 소요되는 시간입니다. 실제로, 다른 버전의 소프트웨어 (버전 B) 에서 코딩하는 데 소비되는 다른 샘플 크기는 6입니다.

코드 버전 A에 소요 된 시간이 코드 버전 B에 소요 된 시간과 다른지 여부를 테스트 하기 위해 1 샘플 t- 테스트를 사용하여 가설 테스트를 수행하고 싶습니다 (이것은 내 H1입니다). 1- 표본 t- 검정의 전제 조건은 테스트 할 데이터가 정규 분포되어야한다는 것입니다. 그렇기 때문에 정규성을 테스트해야합니다.


6
우선, n = 6이고 정규성이 테스트 할 가설이 될 수있는 상황을 상상하기가 어렵습니다. 경험이없는 사용자가 다중 가설 테스트 (회귀를 실행 한 다음 잔차의 정규성을 테스트)를 경험하고 우리가 증상을 해결하고 있지만 옷장의 골격을 무시하고 있다고 두려워합니다.
user603

3
@user 질문자에 대해 추측하는 것은 불공평합니다. 문제를 해결해 봅시다. 따라서 값 비싼 결정을 내리는 데 사용될 값의 상한 예측 한계를 계산한다고 가정합니다. PL의 값은 정규성 가정에 민감합니다. 데이터 생성 프로세스가 비정규임을 확신하지만 데이터를 생성하는 데 많은 비용과 시간이 소요됩니다. 이전 실험은 이 정규성을 거부하기에 충분히 강력 할 것이라고 제안 합니다. (방금 미국의 지하수 모니터링 프로그램에 대한 표준 프레임 워크를 설명했습니다.)=6
whuber

3
User603 (첫 번째 의견입니다) : @Joris가 답변을 제공하지 않았으며 그의 의견도 정당성을 수반하지 않습니다. 강조된 "아니오"가이 질문에 대한 일반적인 일반적인 답변이라면,이를지지하는 주장과 함께 적어 보았으므로 커뮤니티에서 위아래로 평가할 수 있습니다.
whuber

2
@whuber : 나는 '아니오'라는 논증을 추가했습니다.
Joris Meys

1
@Joris 감사합니다! 도움이되고 밝게 빛납니다.
whuber

답변:


38

예.

모든 가설 테스트는 두 가지가 두드러진 특성 : 자신의 크기 (또는 "유의 수준"), 직접 신뢰와 기대 거짓 긍정적 인 속도와 관련된 숫자, 그들의 전력, 위음성의 가능성을 표현한다. 표본 크기가 작고 작은 크기 (고 신뢰도)를 계속 주장하면 검정력이 나빠집니다. 즉, 소 표본 검정은 일반적으로 작거나 중간 정도의 차이를 감지 할 수 없습니다. 그러나 그들은 여전히 ​​의미가 있습니다.

KS 검정은 표본이 정규 분포에서 나온 것으로 보이는지 평가합니다. 6 개 값의 샘플은 실제로이 테스트에 실패하기 위해 비정규 적으로 보일 수 있습니다. 그러나 그렇다면 더 큰 표본 크기로 해석하는 것처럼 null 거부를 정확하게 해석 할 수 있습니다 . 반면에 검정에서 귀무 가설을 기각하지 못하면 거짓 음의 비율이 높기 때문에 거의 알려주지 않습니다. 특히 기본 분포가 정규 분포 인 것처럼 행동하는 것은 상대적으로 위험합니다.

여기서주의해야 할 사항 : 일부 소프트웨어는 근사를 사용하여 테스트 통계에서 p- 값을 계산합니다. 종종 이러한 근사값은 큰 표본 크기에서는 잘 작동하지만 매우 작은 표본 크기에서는 제대로 작동하지 않습니다. 이 경우 p- 값이 올바르게 계산되었다고 신뢰할 수 없으므로 원하는 테스트 크기에 도달했는지 확인할 수 없습니다. 자세한 내용은 소프트웨어 설명서를 참조하십시오.

몇 가지 조언 : KS 테스트는이 목적을 위해 특별히 구성된 다른 테스트보다 정규성 테스트에있어 실질적으로 덜 강력합니다. 그들 중 가장 좋은 것은 아마도 Shapiro-Wilk 테스트이지만 Shapiro-FranciaAnderson-Darling 과 같이 일반적으로 사용되는 강력한 테스트 입니다.

이 그림은 6 개의 정규 분포 변수의 10,000 개 샘플에서 Kolmogorov-Smirnov 검정 통계량의 분포를 표시합니다.

KS 통계 히스토그램

100,000 개의 추가 샘플을 기준으로 상위 번째 백분위 수 (크기 α = 5 % 의 검정에 대한이 통계의 임계 값을 추정 )는 0.520입니다. 이 테스트 를 통과 한 샘플의 예 는 데이터 세트입니다α=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

검정 통계량은 0.5 (임계 값보다 작음)입니다. 이러한 표본은 다른 정규성 검정을 사용하여 거부됩니다.


10
나는 시그마를주는 모든 배포판을 생각합니다. N = 6 인 결과는 너무 정상적이지 않으므로 비행 색상으로 IOTT를 통과합니다. 그것은 눈 사이에 당신을 때립니다.
Peter Flom-Monica Monica 복원

2
=6=6

재미를 위해 set.seed (3833782) x <-runif (6) ks.test (x, pnorm)을 시도했는데 이것은 p = .04에서 중요했습니다. 그것은 일어날 수 있도록
분석 재개 모니카 - 피터 Flom에

4
@ 피터 좋은! 정규성에 대한 KS 테스트에서 균일 한 샘플을 거부했습니다. 그것이 원하는 것입니다.
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)생산합니다 p-value = 0.0003255. 물론 이것을 발견하기 전에 140 개의 씨앗으로 시도해야했습니다 ...
Spacedman

20

@ whuber가 의견에서 물었 듯이, 범주 NO에 대한 유효성 검사. 편집 : 1 샘플 ks 테스트가 실제로 잘못 사용되므로 shapiro 테스트로. Whuber가 정확함 : Kolmogorov-Smirnov 테스트를 올바르게 사용하려면 분포 매개 변수를 지정하고 데이터에서 추출하지 않아야합니다. 그러나 이것은 1- 표본 KS- 테스트를위한 SPSS와 같은 통계 패키지에서 수행됩니다.

분포에 대해 말하려고하고 t- 검정을 적용 할 수 있는지 확인하려고합니다. 따라서이 테스트는 분석의 기본 가정이 유효하지 않을 정도로 데이터가 정규성을 크게 벗어나지 않는지 확인 하기 위해 수행됩니다 . 따라서 I 형 오류에 관심이 없지만 II 형 오류에 관심이 있습니다.

이제 허용 가능한 전력 (0.8)에 대한 최소 n을 계산할 수 있도록 "상당히 다른"을 정의해야합니다. 분포를 사용하면 쉽게 정의 할 수 없습니다. 따라서 나는 내가 사용하는 규칙과는 별도로 합리적인 대답을 할 수 없기 때문에 질문에 대답하지 못했습니다 : n> 15 및 n <50. 무엇을 기준으로합니까? 기본적으로 느낌이 들기 때문에 경험과는 별도로 그 선택을 방어 할 수 없습니다.

그러나 나는 단지 6 개의 값으로 II 형 오류가 거의 1에 가까워 져서 당신의 검정력을 0에 가깝게 만든다는 것을 알고 있습니다. 6 개의 관측으로 Shapiro 테스트는 정규, 포아송, 균일 또는 지수 분포를 구별 할 수 없습니다. 유형 II 오류가 거의 1이므로 테스트 결과는 의미가 없습니다.

shapiro-test로 정규성 검정을 설명하려면 다음을 수행하십시오.

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

값의 약 절반이 0.05보다 작은 유일한 것은 마지막 값입니다. 가장 극단적 인 경우도 있습니다.


shapiro 테스트에서 원하는 전력을 제공하는 최소 n이 무엇인지 찾으려면 다음과 같이 시뮬레이션을 수행 할 수 있습니다.

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

다음과 같은 전력 분석을 제공합니다.

여기에 이미지 설명을 입력하십시오

이 경우 80 %의 경우 정규 분포와 지수를 구별하기 위해 약 20 개의 값이 필요하다고 결론을 내 렸습니다.

코드 플롯 :

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@ whuber : 머리에 대한 가설 테스트의 논리와 관련하여 : 어떤 경우에 대체 가설에 관심이 있습니까? 내가 본 이러한 테스트의 모든 응용 프로그램에서 사람들은 null 확인에 관심이 있습니다. 데이터가 정규 분포와 크게 다르지 않습니다. 그래서 II 형 오류를 강조합니다.
Joris Meys

4
5

4
=8

3
@ whuber : 우리는 다른 것에 동의해야합니다. 나는 완전히 EPA (및 FDA의 가이드 라인이 아님) 가이드의 팬이 아닙니다. 나는 이것이 유용성을 여전히 믿기 위해 너무 자주 한 번 학대를 보았습니다. 확률은 이상하며 6 예에 불과한 확률로 예측할 수 없습니다. 나는 단지 6 개의 관찰에 기초한 PDF와 같은 복잡한 기능에 대해 아무 말도 할 수 없다고 생각합니다. YMMV
Joris Meys

5
t- 검정 @ImAlso 견딜 수 많은 이 상당히 대칭 인 경우 비 정상의, 그러나 너무 많이 비대칭을 용인 할 수 없다. 실제로 정규성에 대한 왜도 검정은 이러한 이유로 KS 검정보다 OP에서 더 나은 옵션 일 수 있습니다. 이는 적합도 검정과 다른 가설 검정간에 가장 큰 차이 중 하나를 나타냅니다. 가능한 대안의 공간과 GoF 테스트는 그들에 대해서는 좋지만 다른 것에 대해서는 좋지 않습니다. 모든 대안에 대해 잘 작동하도록 할 수는 없습니다.
whuber

-2

여기에 제기 된 질문은 6의 표본 크기에 대해 정규성 검사가 필요한 이유에 대한 오해가 있습니다. 여기서 주요 목표는“코드 버전 A에 소요 된 시간이 코드 버전 B에 소요 된 시간과 다른지 여부를 테스트하는 것입니다 ( 이것은 내 H1입니다)”. "differ"라는 단어가 사용될 때, 그것은 하나의 테일 테스트입니까?. 그러나 정규성 테스트는 두 번째 단계입니다. 첫 번째 단계는 검정력이 매우 나쁠 때 주어진 표본 크기에 대해 검정의 사전 결정된 (1-β) 검정력의 적합성을 확인하는 것입니다. 정상 조건 시험의 사용은 무엇입니까? 정규성 상태 점검은 파라 메트릭 또는 비 파라 메트릭 테스트 중 무엇을 결정하는 데 도움이됩니다. 표본 크기에 충분한 검정력이없는 경우 정규성 검정을 고려해야하는 이유는 무엇입니까?


(-1) 이것은 매우 불분명하다. 질문에 대답하는 방법에 대한이 페이지를 읽으십시오 : stats.stackexchange.com/help/how-to-answer
mkt-Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.