@ whuber가 의견에서 물었 듯이, 범주 NO에 대한 유효성 검사. 편집 : 1 샘플 ks 테스트가 실제로 잘못 사용되므로 shapiro 테스트로. Whuber가 정확함 : Kolmogorov-Smirnov 테스트를 올바르게 사용하려면 분포 매개 변수를 지정하고 데이터에서 추출하지 않아야합니다. 그러나 이것은 1- 표본 KS- 테스트를위한 SPSS와 같은 통계 패키지에서 수행됩니다.
분포에 대해 말하려고하고 t- 검정을 적용 할 수 있는지 확인하려고합니다. 따라서이 테스트는 분석의 기본 가정이 유효하지 않을 정도로 데이터가 정규성을 크게 벗어나지 않는지 확인 하기 위해 수행됩니다 . 따라서 I 형 오류에 관심이 없지만 II 형 오류에 관심이 있습니다.
이제 허용 가능한 전력 (0.8)에 대한 최소 n을 계산할 수 있도록 "상당히 다른"을 정의해야합니다. 분포를 사용하면 쉽게 정의 할 수 없습니다. 따라서 나는 내가 사용하는 규칙과는 별도로 합리적인 대답을 할 수 없기 때문에 질문에 대답하지 못했습니다 : n> 15 및 n <50. 무엇을 기준으로합니까? 기본적으로 느낌이 들기 때문에 경험과는 별도로 그 선택을 방어 할 수 없습니다.
그러나 나는 단지 6 개의 값으로 II 형 오류가 거의 1에 가까워 져서 당신의 검정력을 0에 가깝게 만든다는 것을 알고 있습니다. 6 개의 관측으로 Shapiro 테스트는 정규, 포아송, 균일 또는 지수 분포를 구별 할 수 없습니다. 유형 II 오류가 거의 1이므로 테스트 결과는 의미가 없습니다.
shapiro-test로 정규성 검정을 설명하려면 다음을 수행하십시오.
shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution
값의 약 절반이 0.05보다 작은 유일한 것은 마지막 값입니다. 가장 극단적 인 경우도 있습니다.
shapiro 테스트에서 원하는 전력을 제공하는 최소 n이 무엇인지 찾으려면 다음과 같이 시뮬레이션을 수행 할 수 있습니다.
results <- sapply(5:50,function(i){
p.value <- replicate(100,{
y <- rexp(i,2)
shapiro.test(y)$p.value
})
pow <- sum(p.value < 0.05)/100
c(i,pow)
})
다음과 같은 전력 분석을 제공합니다.
이 경우 80 %의 경우 정규 분포와 지수를 구별하기 위해 약 20 개의 값이 필요하다고 결론을 내 렸습니다.
코드 플롯 :
plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
main="Power simulation for exponential distribution",
xlab="n",
ylab="power"
)