N> 50 일 때 비정규 T- 테스트?


77

오래 전에 저는 두 개의 표본 T- 검정을 사용하기 위해 정규 분포가 필요하다는 것을 배웠습니다. 오늘 동료는 N> 50의 정규 분포가 필요하지 않다는 것을 알게되었다고 말했습니다. 그게 사실입니까?

사실이라면 중앙 제한 정리 때문입니까?


3
로모그래퍼 질문을 관련 매우 Glen_b에 의해 좋은 답변 stats.stackexchange.com/questions/121852/...

답변:


82

t- 검정의 정규성 가정

특정 크기의 여러 가지 다른 표본을 채취 할 수있는 대규모 모집단을 고려하십시오. (특정 연구에서는 일반적으로 이러한 샘플 중 하나만 수집합니다.)

t- 검정은 다른 표본의 평균이 정규 분포를 따른다고 가정합니다. 모집단이 정규 분포되어 있다고 가정하지는 않습니다.

중심 한계 정리에 의해 유한 분산을 가진 모집단의 표본 수단은 모집단의 분포에 관계없이 정규 분포에 접근합니다. 경험에 의하면 표본 크기가 최소 20 또는 30 인 한 표본 평균은 기본적으로 정규 분포를 따릅니다. t- 검정이 더 작은 크기의 표본에서 유효하려면 모집단 분포가 대략 정규이어야합니다.

t- 검정은 비정규 분포의 작은 표본에는 유효하지 않지만 비정규 분포의 큰 표본에는 유효합니다.

비정규 분포의 소 표본

Michael이 아래에 지적한 것처럼 정규성을 근사하기위한 평균의 분포에 필요한 표본 크기는 모집단의 비정규도에 따라 다릅니다. 대략 정규 분포의 경우 비정규 분포만큼 큰 표본이 ​​필요하지 않습니다.

R에서 실행할 수있는 시뮬레이션은 다음과 같습니다. 먼저, 몇 가지 인구 분포가 있습니다.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

다음은 모집단 분포의 표본에 대한 시뮬레이션입니다. 이러한 각 줄에서 "10"은 표본 크기이고 "100"은 표본 수이며 그 이후의 함수는 모집단 분포를 지정합니다. 표본 평균의 히스토그램을 생성합니다.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

t- 검정이 유효하려면이 히스토그램은 정상이어야합니다.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

t- 검정의 유용성

내가 방금 전 준 모든 지식은 다소 쓸모가 없다는 것을 알아야합니다. 이제 컴퓨터가 있으므로 t- 테스트보다 더 잘할 수 있습니다. Frank가 지적한 것처럼 t- 테스트를 수행하도록 배운 곳이면 Wilcoxon 테스트 를 사용하고 싶을 것입니다 .


7
좋은 설명 (+1). 그러나 모집단의 비정규 성 정도에 대한 정규성 추정값을 근사화하는 수단의 분포에 필요한 표본 크기를 추가 할 것입니다. 큰 표본의 경우 분포에 대한 가정이없는 순열 검정보다 t- 검정을 선호 할 이유가 없습니다.
Michael Lew

2
내가 아는 한 +1이지만 t- 검정은 정규 성과의 편차에 대해 상당히 저항력이 있습니다. 또한 흥미로운 관련 토론 : stats.stackexchange.com/questions/2492/…
nico

4
좋은 대답이지만 놓친 작은 세부 사항이 하나 있습니다. 데이터 분포에는 유한 분산이 있어야합니다. T- 검정은 두 개의 Cauchy 분포 (또는 자유도가 2 인 학생)의 위치 차이를 비교하는 데 희망이 없습니다. 이는 "비 강성"이기 때문이 아니라 이러한 분포의 경우 평균을 넘어서서 추가 관련 정보가 있기 때문입니다. 그리고 t- 검정이 버리는 표준 편차.
chanceislogic

2
이 외에도 t-test는 자연스럽게 조사중인 모수에 대한 신뢰 구간을 산출합니다. (여전히 질문에 직접적으로 대응하는 두 개의 첫 번째 문단으로 인해 여전히 찬성 투표, 나는 단지 세 번째 문단에 크게 동의하지 않습니다)
Erik

6
t- 검정 DOES는 모집단의 정규성을 요구합니다. 이는 t 통계량에 t- 학생 분포가 있어야한다는 가정입니다. 정규 모집단이없는 경우 t 통계량을 표준 정규 변수를 카이 제곱 변수의 근을 자유 도로 나눈 값으로 나눌 수 없습니다. 어쩌면 당신이 말하려고하는 것은 너무 많은 왜곡이나 큰 샘플과 같은 일부 조건이 사실이라면 모집단이 정상이 아닌 경우에도 테스트가 유효 할 수 있다는 것입니다.
toneloy

44

중심 한계 정리는이 맥락에서 생각하는 것보다 덜 유용합니다. 첫째, 누군가가 이미 지적했듯이 현재 샘플 크기가 "충분히 큰지"알 수 없습니다. 둘째로, CLT는 타입 II 에러보다는 원하는 타입 I 에러를 달성하는 것에 관한 것이다. 다시 말해, t- 검정은 경쟁이 안되는 힘이 될 수 있습니다. 이것이 바로 Wilcoxon 테스트가 인기있는 이유입니다. 정규성이 유지되면 t- 검정보다 95 % 효율적입니다. 정규성이 유지되지 않으면 t- 검정보다 임의로 더 효율적일 수 있습니다.


7
(+1) 사이트에 오신 것을 환영합니다. 여러분의 참여를 기대합니다.
추기경

4
(+1) 윌 콕슨에 대한 좋은 지적.
whuber

18

t- 검정견고성에 대한 질문에 대한 이전 답변을 참조하십시오 .

특히 onlinestatsbook 애플릿을 사용하는 것이 좋습니다 .

아래 이미지는 다음 시나리오를 기반으로합니다.

  • 귀무 가설이 참
  • 상당히 심한 왜곡
  • 두 그룹에서 동일한 분포
  • 두 그룹에서 동일한 분산
  • 그룹 5 당 샘플 크기 (즉, 질문에 따라 50 미만)
  • 10,000 개의 시뮬레이션 버튼을 약 100 번 눌러 최대 100 만 개의 시뮬레이션을 달성했습니다.

얻은 시뮬레이션은 5 % 유형 I 오류 대신 4.5 % 유형 I 오류 만 발생했음을 나타냅니다.

이 견고성을 고려하는지 여부는 관점에 따라 다릅니다.

여기에 이미지 설명을 입력하십시오


4
좋은 포인트 +1 비뚤어진 대안을 사용한 t- 검정 의 은 심각하게 저하 될 수 있습니다 (큰 효과 크기에서도 본질적으로 0 인 지점까지).
whuber

6

h=0.24999

p=1041p

편집 : 주석에서 @ whuber의 캐치 당으로, 내가 준 예제의 평균은 0이 아니기 때문에 평균 0을 테스트하는 것은 유형 I 비율과 관련이 없습니다.

복권 예제는 종종 샘플 표준 편차가 0이므로 t- 검정이 질식합니다. 대신 Goerg의 Lambert W x Gaussian 분포 를 사용하는 코드 예제를 제공합니다 . 여기서 사용하는 분포는 약 1355의 왜곡을가집니다.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

이 코드는 서로 다른 샘플 크기에 대해 명목 0.05 수준에서 경험적 거부율을 제공합니다. 크기가 50 인 표본의 경우 경험적 비율은 0.40 (!)입니다. 샘플 크기 250, 0.29; 샘플 크기 1000, 0.21; 표본 크기 2000의 경우 0.18 분명히 1- 표본 t- 검정은 기울어 짐을 겪습니다.


p=0

1

중심 한계 정리는 t- 통계량의 분자가 점진적으로 정상임을 (필요한 조건 하에서) 설정합니다. t- 통계량에도 분모가 있습니다. t- 분포를 가지려면 분모가 독립적이고 제곱근 제곱근이 df이어야합니다.

그리고 우리 그것이 독립적이지 않을 것이라는 것을 알고 있습니다 (정상적인 특징입니다!)

CLT와 결합 된 Slutsky의 정리는 t- 통계가 점진적으로 정상임을 나타내지 만 (매우 유용한 속도 일 필요는 없습니다).

비정규 성이있을 때 t- 통계량이 대략 t- 분포되고, 얼마나 빨리 나오는지 정리하는 이론은 무엇입니까? (물론, 결국 t-는 법선에 가까워 지지만 다른 근사치에 대한 근사치가 정규 근사치를 사용하는 것보다 낫다고 가정합니다 ...)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
불행하게도, 우리가 t- 분포를 끝내려면 상관되지 않은 것과 독립적 인 구별이 적절합니다.
Glen_b

0

그렇습니다. 중앙 한계 정리는 이것이 사실이라고 말합니다. 극도로 꼬리가 큰 특성을 피하는 한 비정규 성은 중간에서 큰 표본에 아무런 문제가 없습니다.

다음은 유용한 검토 논문입니다.

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

대안이 원래 분포의 위치 이동이 아닌 경우 Wilcoxon 검정 (다른 사람이 언급 함)은 끔찍한 힘을 가질 수 있습니다. 또한 분포 간의 차이를 측정하는 방식은 전 이적이지 않습니다.


윌 콕슨에 대한 흥미로운 점. 그러나 t- 검정은 비슷한 어려움을 겪습니다. 분산이 증가하는 변화를 감지하는 데 특히 나쁩니다. 전이성에 관한 비트는 현재 맥락에서 주로 호기심 인 것으로 보인다. 원래 가설 검정 또는 해석과 어떻게 관련이 있는지 알기가 어렵습니다. (그러나 ANOVA 또는 다중 비교 설정에서
비순환 성

동일하지 않은 분산 t- 검정 (일부 소프트웨어의 기본값)에는 이분산성에 문제가 없습니다.
손님

전이성에 관하여; 표본 평균을보고하거나 평균의 차이 (t- 검정 방법을 사용하여 자연스럽게)는 다른 모집단에서 표본을 추출 할 때 고려해야 할 사항을 독자에게 제공합니다. Wilcoxon 테스트의 비 일시성 (transitivity)은 이러한 접근 방식에 그러한 유사성이 없다는 것을 의미합니다. 데이터 순위를 사용하는 것은 매우 제한된 접근 방식입니다.
손님

1
(1) Satterthwaite-Welch (고 분산) 테스트는 내가 언급 한 전력 손실을 극복하지 못합니다 (약간 도움이 될 수 있음). (2) 나는 당신이 계급을 "제한적"으로 사용하는 것이 극단이라고 생각합니다. 그의 대답에서, @Frank 하렐은 윌 콕슨 시험은 많은 설정에서 높은 효율을 유지하는 방법을 보여주는 연구로 언급했다 : 순위를 사용하는 것이 효과적 두 방법이 보여 ,보다 유연한 t 테스트에 비해 제한되지 더.
whuber

(1) 아니요, 그러나 중간에서 큰 샘플에서 올바른 유형 I 오류율을 제공합니다. (2) 감사합니다. Wilcoxon보다 t- 검정을 사용하면 검정과 신뢰 구간 사용 간의 격차를 해소하기가 훨씬 쉬워집니다. 테스트를 원하고 연구에서 두 그룹 이상을 보지 않는다면 Wilcoxon은 물론 잘 작동하는 상황이 있습니다. 그러나 종종 우리는 단지 테스트 만하고 싶지 않고 사용자가 결과를 다른 상황으로 일반화하도록 돕고 싶어합니다. Wilcoxon 테스트는 도움이되지 않습니다.
손님

0

대안으로 Wilcoxon-Mann-Whitney 테스트를 사용하는 방법 에 대한 조사에서 Wilcoxon-Man-Whitney 테스트 종이를 권장합니다.

평균 또는 중간 값의 검정으로서 Wilcoxon–Mann-Whitney (WMW) 검정은 순수한 교대 모형과의 편차에 대해 심각하지 않을 수 있습니다.

이들은 논문 저자의 추천입니다.

순위 변환은 두 표본의 평균, 표준 편차 및 왜도를 다르게 변경할 수 있습니다. 순위 변환이 유리한 효과를 얻도록 보장되는 유일한 상황은 분포가 동일하고 표본 크기가 동일한 경우입니다. 이러한 다소 엄격한 가정과의 편차로 인해 표본 모멘트에 대한 순위 변환의 영향을 예측할 수 없습니다. 논문의 시뮬레이션 연구에서 WMW 테스트는 Fligner-Policello 테스트 (FP), Brunner-Munzel 테스트 (BM), 2 샘플 T 테스트 (T), Welch U 테스트 (U), 순위에 대한 Welch U 테스트 (RU). BM 테스트는 다른 테스트보다 약간 우수하지만 4 개의 순위 기반 테스트 (WMW, FP, BM 및 RU)도 비슷하게 수행되었습니다. 표본 크기가 같을 때 모수 검정 (T 및 U)은 동일한 평균의 귀무 가설 하에서 순위 기반 검정보다 우수했지만 동일한 중앙값의 귀무 가설 하에서는 그렇지 않았습니다. 표본 크기가 같지 않으면 BM, RU 및 U 테스트가 가장 잘 수행되었습니다. 여러 설정에서 모집단 속성의 작은 변경으로 인해 테스트 성능이 크게 변경되었습니다. 요약하면, 큰 표본 근사 WMW 검정은 두 분포가 동일한 모양과 동일한 척도를 가지지 않는 한 두 모집단의 평균 또는 중간 값을 비교하는 데 나쁜 방법 일 수 있습니다. 이 문제는 또한 정확한 WMW 테스트, FP 테스트, BM 테스트 및 Welch U 테스트에 여러 수준으로 적용되는 것으로 보입니다. WMW 테스트를 사용할 때 저자는 순위가 매겨진 샘플의 특성이 왜도 및 분산 이질성의 징후에 대해 철저히 조사 될 것을 권장합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.