답변:
t- 검정의 정규성 가정
특정 크기의 여러 가지 다른 표본을 채취 할 수있는 대규모 모집단을 고려하십시오. (특정 연구에서는 일반적으로 이러한 샘플 중 하나만 수집합니다.)
t- 검정은 다른 표본의 평균이 정규 분포를 따른다고 가정합니다. 모집단이 정규 분포되어 있다고 가정하지는 않습니다.
중심 한계 정리에 의해 유한 분산을 가진 모집단의 표본 수단은 모집단의 분포에 관계없이 정규 분포에 접근합니다. 경험에 의하면 표본 크기가 최소 20 또는 30 인 한 표본 평균은 기본적으로 정규 분포를 따릅니다. t- 검정이 더 작은 크기의 표본에서 유효하려면 모집단 분포가 대략 정규이어야합니다.
t- 검정은 비정규 분포의 작은 표본에는 유효하지 않지만 비정규 분포의 큰 표본에는 유효합니다.
비정규 분포의 소 표본
Michael이 아래에 지적한 것처럼 정규성을 근사하기위한 평균의 분포에 필요한 표본 크기는 모집단의 비정규도에 따라 다릅니다. 대략 정규 분포의 경우 비정규 분포만큼 큰 표본이 필요하지 않습니다.
R에서 실행할 수있는 시뮬레이션은 다음과 같습니다. 먼저, 몇 가지 인구 분포가 있습니다.
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
다음은 모집단 분포의 표본에 대한 시뮬레이션입니다. 이러한 각 줄에서 "10"은 표본 크기이고 "100"은 표본 수이며 그 이후의 함수는 모집단 분포를 지정합니다. 표본 평균의 히스토그램을 생성합니다.
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
t- 검정이 유효하려면이 히스토그램은 정상이어야합니다.
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
t- 검정의 유용성
내가 방금 전 준 모든 지식은 다소 쓸모가 없다는 것을 알아야합니다. 이제 컴퓨터가 있으므로 t- 테스트보다 더 잘할 수 있습니다. Frank가 지적한 것처럼 t- 테스트를 수행하도록 배운 곳이면 Wilcoxon 테스트 를 사용하고 싶을 것입니다 .
중심 한계 정리는이 맥락에서 생각하는 것보다 덜 유용합니다. 첫째, 누군가가 이미 지적했듯이 현재 샘플 크기가 "충분히 큰지"알 수 없습니다. 둘째로, CLT는 타입 II 에러보다는 원하는 타입 I 에러를 달성하는 것에 관한 것이다. 다시 말해, t- 검정은 경쟁이 안되는 힘이 될 수 있습니다. 이것이 바로 Wilcoxon 테스트가 인기있는 이유입니다. 정규성이 유지되면 t- 검정보다 95 % 효율적입니다. 정규성이 유지되지 않으면 t- 검정보다 임의로 더 효율적일 수 있습니다.
t- 검정 의 견고성에 대한 질문에 대한 이전 답변을 참조하십시오 .
특히 onlinestatsbook 애플릿을 사용하는 것이 좋습니다 .
아래 이미지는 다음 시나리오를 기반으로합니다.
얻은 시뮬레이션은 5 % 유형 I 오류 대신 4.5 % 유형 I 오류 만 발생했음을 나타냅니다.
이 견고성을 고려하는지 여부는 관점에 따라 다릅니다.
편집 : 주석에서 @ whuber의 캐치 당으로, 내가 준 예제의 평균은 0이 아니기 때문에 평균 0을 테스트하는 것은 유형 I 비율과 관련이 없습니다.
복권 예제는 종종 샘플 표준 편차가 0이므로 t- 검정이 질식합니다. 대신 Goerg의 Lambert W x Gaussian 분포 를 사용하는 코드 예제를 제공합니다 . 여기서 사용하는 분포는 약 1355의 왜곡을가집니다.
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
이 코드는 서로 다른 샘플 크기에 대해 명목 0.05 수준에서 경험적 거부율을 제공합니다. 크기가 50 인 표본의 경우 경험적 비율은 0.40 (!)입니다. 샘플 크기 250, 0.29; 샘플 크기 1000, 0.21; 표본 크기 2000의 경우 0.18 분명히 1- 표본 t- 검정은 기울어 짐을 겪습니다.
중심 한계 정리는 t- 통계량의 분자가 점진적으로 정상임을 (필요한 조건 하에서) 설정합니다. t- 통계량에도 분모가 있습니다. t- 분포를 가지려면 분모가 독립적이고 제곱근 제곱근이 df이어야합니다.
그리고 우리 는 그것이 독립적이지 않을 것이라는 것을 알고 있습니다 (정상적인 특징입니다!)
CLT와 결합 된 Slutsky의 정리는 t- 통계가 점진적으로 정상임을 나타내지 만 (매우 유용한 속도 일 필요는 없습니다).
비정규 성이있을 때 t- 통계량이 대략 t- 분포되고, 얼마나 빨리 나오는지 정리하는 이론은 무엇입니까? (물론, 결국 t-는 법선에 가까워 지지만 다른 근사치에 대한 근사치가 정규 근사치를 사용하는 것보다 낫다고 가정합니다 ...)
그렇습니다. 중앙 한계 정리는 이것이 사실이라고 말합니다. 극도로 꼬리가 큰 특성을 피하는 한 비정규 성은 중간에서 큰 표본에 아무런 문제가 없습니다.
다음은 유용한 검토 논문입니다.
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
대안이 원래 분포의 위치 이동이 아닌 경우 Wilcoxon 검정 (다른 사람이 언급 함)은 끔찍한 힘을 가질 수 있습니다. 또한 분포 간의 차이를 측정하는 방식은 전 이적이지 않습니다.
대안으로 Wilcoxon-Mann-Whitney 테스트를 사용하는 방법 에 대한 조사에서 Wilcoxon-Man-Whitney 테스트 종이를 권장합니다.
평균 또는 중간 값의 검정으로서 Wilcoxon–Mann-Whitney (WMW) 검정은 순수한 교대 모형과의 편차에 대해 심각하지 않을 수 있습니다.
이들은 논문 저자의 추천입니다.
순위 변환은 두 표본의 평균, 표준 편차 및 왜도를 다르게 변경할 수 있습니다. 순위 변환이 유리한 효과를 얻도록 보장되는 유일한 상황은 분포가 동일하고 표본 크기가 동일한 경우입니다. 이러한 다소 엄격한 가정과의 편차로 인해 표본 모멘트에 대한 순위 변환의 영향을 예측할 수 없습니다. 논문의 시뮬레이션 연구에서 WMW 테스트는 Fligner-Policello 테스트 (FP), Brunner-Munzel 테스트 (BM), 2 샘플 T 테스트 (T), Welch U 테스트 (U), 순위에 대한 Welch U 테스트 (RU). BM 테스트는 다른 테스트보다 약간 우수하지만 4 개의 순위 기반 테스트 (WMW, FP, BM 및 RU)도 비슷하게 수행되었습니다. 표본 크기가 같을 때 모수 검정 (T 및 U)은 동일한 평균의 귀무 가설 하에서 순위 기반 검정보다 우수했지만 동일한 중앙값의 귀무 가설 하에서는 그렇지 않았습니다. 표본 크기가 같지 않으면 BM, RU 및 U 테스트가 가장 잘 수행되었습니다. 여러 설정에서 모집단 속성의 작은 변경으로 인해 테스트 성능이 크게 변경되었습니다. 요약하면, 큰 표본 근사 WMW 검정은 두 분포가 동일한 모양과 동일한 척도를 가지지 않는 한 두 모집단의 평균 또는 중간 값을 비교하는 데 나쁜 방법 일 수 있습니다. 이 문제는 또한 정확한 WMW 테스트, FP 테스트, BM 테스트 및 Welch U 테스트에 여러 수준으로 적용되는 것으로 보입니다. WMW 테스트를 사용할 때 저자는 순위가 매겨진 샘플의 특성이 왜도 및 분산 이질성의 징후에 대해 철저히 조사 될 것을 권장합니다.