t- 검정 사망에 대한보고가 크게 과장 되었습니까?


25

CV 상시 고전을 통해 나는 명확히하고 싶은 진술을 보았습니다. 이 글은 글 이며 내 질문은 마지막 말을 인용한다. "방금 전 준 모든 지식이 다소 쓸모가 없다는 점에 주목해야한다. 이제 우리는 컴퓨터를 가지고 있으므로 t- 테스트보다 더 잘할 수있다. Frank는 아마도 t- 테스트를 수행하도록 배운 곳이라면 Wilcoxon 테스트를 사용하고 싶을 것입니다. "

샘플 수단의 분포가 t- 검정 을 수행하기에 충분히 정상이라고 가정하는 것이 건전한 지에 대한 걱정의 부족 은 분명히 큰 이점입니다. 그리고 컴퓨터가 산들 바람 속에서 두 벡터의 데이터 사이의 긴 차이 목록을 평가할 수 있다는 것을 알았습니다 ... 수년 전에 수동으로 수행 한 것을 기억하지만, 난 ...

그래서, t- 테스트는 정말로 과거의 일입니까? 순열 테스트는 어떻습니까? 그것들 은 일반적으로 몇 줄의 코드 작성을 수반한다는 의미에서 특별 합니까?


3
순열 테스트를 특별 하게 만드는 것은 무엇입니까 ? Fisher는 자신의 행동이 순열 테스트의 동작과 비슷할 정도로 t- 검정을 적절하게 간주했습니다 (죄송 합니다만, 인용 할 수없는 정확한 인용 부호는 없습니다). 보다 근본적인 순열 테스트. 또한 양측 순열 검정에서 어려운 점을 보지 못했습니다. 그러나 아마도 나는 일종의 대답을 향해 길을 가고 있습니다.
Glen_b-복지 주 모니카

1
등분 산 t- 검정에 유리한 것은 아마도 당신이 즐겁게하고 싶은 단순한 모델의 매개 변수 추정과의 관계 일 것입니다.
Scortchi-Monica Monica 복원

답변:


22

나는 고전적인 하나의 샘플 (페어 포함)과 2- 샘플 등분 산 t- 검정이 정확히 사용되지 않는다고 말하지는 않지만 우수한 특성을 가진 많은 대안이 있으며 많은 경우에 사용해야합니다.

또한 큰 표본 또는 순열 테스트에서 Wilcoxon-Mann-Whitney 테스트를 신속하게 수행 할 수있는 능력은 최근에, 학생으로서 30 년 전에 정기적으로 수행하고 있었으며 그렇게 할 수있는 능력은 그 시점에서 오랫동안 사용할 수있었습니다.

한 번 보다 처음부터 순열 테스트를 코딩하는 것이 훨씬 쉽지만 , 어렵지 않았습니다. , 다른 데이터 등은 간단하며 일반적으로 프로그래밍에 대한 배경 지식이 필요하지 않습니다).

다음은 몇 가지 대안과 이들이 도움이 될 수있는 이유입니다.

  1. Welch-Satterthwaite- 분산이 거의 같을 것으로 확신 할 수없는 경우 (샘플 크기가 동일하면 동일한 분산 가정이 중요하지 않음)

  2. Wilcoxon-Mann-Whitney- 특히 대칭에 가까운 경우에 꼬리가 정상보다 무거울 때 탁월합니다. 꼬리가 정상에 가까워지면 평균에 대한 순열 검정이 약간 더 많은 검정력을 제공합니다.

  3. 강화 된 t- 검정 -정상에서는 좋은 검정력을 가지지 만 무거운 꼬리 또는 약간 비뚤어진 대안에서는 잘 작동하고 좋은 검정력을 유지하는 다양한 시험 법 이 있습니다.

  4. GLM- 예를 들어 카운트 또는 연속 오른쪽으로 치우친 경우 (예 : 감마)에 유용합니다. 분산이 평균과 관련된 상황을 처리하도록 설계되었습니다.

  5. 랜덤 효과 또는 시계열 모델 은 특정 형태의 의존성이있는 경우에 유용 할 수 있습니다.

  6. 베이지안 접근 , 부트 스트랩 및 위의 아이디어와 유사한 이점을 제공 할 수있는 기타 중요한 기술이 많이 있습니다. 예를 들어, 베이지안 접근 방식으로는 카운트 또는 왜곡 된 데이터로 오염 공정 거래 계정 수있는 모델이 있고, 의존의 특정 형태, 처리하는 것은 매우 가능성이 동시에 모두를 .

많은 편리한 대안이 존재하지만, 구식 표준 등분 산 2- 표본 t- 검정은 모집단이 정상과 거리가 멀지 않은 한 (예 : 매우 두꺼운 꼬리가있는 경우) 동일한 크기의 큰 표본에서 종종 잘 수행 될 수 있습니다. / skew) 우리는 거의 독립되어 있습니다.

대안은 우리가 평범한 t- 검정에 대해 확신하지 못하고 t- 검정의 가정이 충족되거나 거의 근접 할 때 일반적으로 잘 수행되는 상황에서 유용합니다.

분포가 정상에서 너무 멀어지지 않는 경우 웰치 (Welch)는 합리적인 기본값입니다 (더 큰 표본이 ​​더 많은 여유를 허용 함).

순열 테스트는 우수하지만 t- 테스트와 비교할 때 전력 손실이 없으며 (관심 수량에 대한 직접 추론의 유용한 이점) Wilcoxon-Mann-Whitney는 아마도 다음과 같은 경우 더 나은 선택 일 것입니다. 꼬리는 무거울 수 있습니다. 약간의 추가 가정으로 WMW는 평균 이동과 관련된 결론을 줄 수 있습니다. (순열 테스트보다 선호하는 다른 이유가 있습니다)

[말하기 횟수 또는 대기 시간 또는 이와 유사한 종류의 데이터를 처리하고 있다는 것을 알고 있다면 GLM 경로가 합리적입니다. 잠재적 인 형태의 의존성에 대해 조금 알고 있다면, 그것도 쉽게 다룰 수 있으며 의존성에 대한 가능성도 고려해야합니다.]

따라서 t- 검정은 확실히 과거의 일이 아니지만 적용 할 때 거의 항상 거의 또는 거의 잘 할 수 있으며 대안 중 하나를 입양하지 않으면 잠재적으로 많은 것을 얻을 수 있습니다 . 다시 말해, 나는 t- 검정과 관련된 게시물의 감정에 광범위하게 동의합니다 ... 데이터를 수집하기 전에 아마도 가정을 생각해야하며 실제로 예상되지 않을 수도있는 경우 t- 검정으로 대체가 일반적으로 잘 작동하기 때문에 단순히 가정을하지 않으면 잃을 것이 거의 없습니다 .

데이터를 수집하는 데 큰 어려움을 겪고 있다면 추론에 접근하는 가장 좋은 방법을 진지하게 고려하지 않고 약간의 시간을 투자 할 이유가 없습니다.

나는 일반적으로 가정에 대한 명시 적 테스트에 대해 조언한다-틀린 질문에 답할뿐 아니라, 그렇게하고 가정의 거부 또는 거부에 기초한 분석을 선택하면 두 선택의 속성에 영향을 미친다. 합리적으로 안전하게 가정 할 수없는 경우 (프로세스에 대해 충분히 잘 알고 있거나 상황에 따라 절차가 민감하지 않기 때문에) 일반적으로 말하면 절차를 사용하는 것이 좋습니다 그것은 가정하지 않습니다.


요즘에는 사소한 것이 너무 간단합니다. 다음은 R에서 평균의 2- 표본 비교에 대한 순열 검정 및 무작위 검정입니다.

# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx  <- length(x)

# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)

# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))

# find p-value for permutation test
left  = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm

# this is easier: 
#      pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv))) 
# but I'd keep left and right above for adapting to other tests

# find p-value for randomization test
left  = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand

(결과 p- 값은 각각 0.538 및 0.539입니다. 해당하는 일반 두 표본 t- 검정은 p- 값이 0.504이고 Welch-Satterthwaite t- 검정은 p- 값이 0.522입니다.)

계산 코드는 각 경우 순열 테스트의 조합에 대해 1 행이며 p- 값도 1 행으로 수행 할 수 있습니다.

순열 테스트 또는 무작위 화 테스트를 수행하고 t- 테스트와 같이 출력을 생성하는 함수에 이것을 적용하는 것은 사소한 문제입니다.

결과는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

# Draw a display to show distn & p-vale region for both 
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)

par(opar)

첫 번째 코드 블록의 16 줄에는 작은 오타가 있습니다. 읽어야한다고 생각합니다 : # pvalue = mean (abs (permmean-mean (xyv))> = abs (mean (x) -mean (xyv))). 또한 왜 오른쪽 꼬리가 right = mean (permmean> = 2 * mean (xyv)-mean (x))으로 테스트됩니까?
Antoni Parellada 5

좋은 대답 (+1)이지만, 일반적으로 t- 검정 만 언급하지 않는 한 가정을하지 않아도 잃을 것이 거의 없다는 진술에 동의하지 않습니다. 일반적인 진술인지 아닌지 불분명합니다. 더 복잡한 모델과 제한된 샘플 크기의 경우, 예를 들어 약한 정보 이전의 형태와 같은 가정이 종종 중요합니다.
Erik

1
@Erik 일반적인 진술은 아닙니다. 명확하게하겠습니다
Glen_b-복지국 Monica

1

2
@Stephan에는 너무 많은 다른 고려 사항이 있으며 (적어도 다중 회귀 분석을 보면 널리 사용되는 대안 세트가 다소 줄어 듭니다) 그 경우 대답하는 것이 길고 실질적인 차이가 있습니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.