t- 검정을 수행 할 때 항상 df의 Welch 근사값을 사용하지 않고 동일한 분산을 가정 (또는 검정)하는 것을 선호하는 이유는 무엇입니까?


47

분산의 동질성 가정이 충족되면 Welch 조정 t- 검정과 표준 t- 검정의 결과는 거의 동일합니다. 왜 항상 Welch 조정 t를 사용하지 않습니까?

답변:


33

Kubinger, Rasch 및 Moder (2009) 의 논문 (독일어)을 기반으로 한 다른 두 가지 대답에 반대하고 싶습니다 .

그들은 t- 검정에 의해 부과 된 가정을 충족 시키거나 충족시키지 않는 분포의 "확장"시뮬레이션을 기반으로 가정이 충족 될 때 웰치 검정이 동등하게 잘 수행된다는 것 (즉, 기본적으로 동일 함) 알파 및 베타 오류 발생 가능성), 특히 전력 측면에서 가정이 충족되지 않으면 t- 테스트보다 성능이 우수합니다. 따라서 표본 크기가 30을 초과하는 경우 항상 웰치 테스트를 사용하는 것이 좋습니다.

메타 주석 : 통계에 관심이있는 사람들 (나나 다른 대부분의 경우와 같은)의 경우, 데이터를 기반으로 한 논거 (내 것과 같은)는 이론적 근거를 바탕으로 한 논거와 동일하게 계산해야합니다.


업데이트 :
이 주제에 대해 다시 생각한 후 새로운 제안이 내 요점을 보조하는 두 가지 추가 권장 사항을 발견했습니다. 이러한 권장 사항으로 이어지는 논증에 대한 원본 논문 (적어도 나에게도 무료로 제공됨)을보십시오.

첫 번째 권장 사항은 2006 년 Graeme D. Ruxton에서 발췌 한 것입니다. " 관련없는 데이터 샘플을 기준으로 두 모집단의 중심 경향을 비교하려면 불균형 분산 t- 검정을 항상 학생의 t- 검정보다 우선적으로 사용해야합니다. 또는 Mann-Whitney U 테스트. "
In :
Ruxton, GD, 2006. 동일하지 않은 분산 t- 검정은 Student 's t-test 및 Mann-Whitney U 검정에 대한 사용되지 않은 대안 입니다. 행동. ECOL . 17, 688–690.

두 번째 (구) 권장 사항은 Coombs et al. (1996, P 148). " . 충분히 큰 동일한 크기의 샘플 요약 독립 샘플 t 시험은 동일한 모집단 분산 가정을 위반하는 경우에도, 설치 타입 I 에러 레이트 제어의 관점에서 일반적으로 허용되는 불균등 들어 그러나 크기가 동일한 표본은 모집단 분산이 같지 않은 대안이 바람직합니다 분포가 짧은 꼬리 대칭이거나 정규 인 경우 James 2 차 검정을 사용하십시오. 유망한 대안으로는 Wilcox H 및 Yuen trimmed mean test가 있습니다. Welch 테스트 나 James 테스트보다 Type I 오류율을 더 광범위하게 제어하고 데이터가 긴꼬리 일 때 더 큰 성능을 발휘합니다. " (강조 첨가)
에서 :
Coombs WT, Algina J, Oltman D. 1996. 모집단 분산이 반드시 같지 않을 때 제 1 종 오류율을 제어하기 위해 선택된 일 변량 및 다변량 옴니버스 가설 검정 . Rev Educ Res 66 : 137–79.


3
메타 응답 : 좋은 지적입니다. 그러나 데이터가 내 것처럼 작동하지 않을 수 있습니다! :-)
whuber

Henrik, 내가 다음에 대한 답을 편집하면 좋을 것입니다. (1) 테스트를 Student 's t-test와 Welch 's t-test (대부분의 문어에서 찾은대로)를 호출하여 용어를 변경하십시오. (2) 토론에 그것을 제안하는 다른 논문을 포함 시키 십시오 : rips-irsp.com/article/10.5334/irsp.82 (레벤의 동질성 시험에 기초한 시험을 선택할 때 발생하는 편향을 강조합니다).
브루노

13

물론 두 테스트를 모두 버리고 불균형 및 불균등 분산을 설명 할 수있는 베이지안 t- 검정 (Savage-Dickey ratio test)을 사용하여 시작할 수 있습니다. 귀무 가설 (이전의 "거부 실패"대화가 더 이상 없음)

이 테스트는 구현하기가 매우 간단하고 빠르며 베이지안 통계에 익숙하지 않은 독자에게 R 스크립트와 함께 사용 방법을 명확하게 설명하는 논문이 있습니다. 기본적으로 데이터를 삽입하여 명령을 R 콘솔에 보낼 수 있습니다.

Wetzels, R., Raaijmakers, JGW, Jakab, E. 및 Wagenmakers, E.-J. (2009). 귀무 가설에 대한 지원과 양을 비교하는 방법 : 기본 베이지안 t- 검정의 유연한 WinBUGS 구현.

예제 데이터와 함께이 모든 것에 대한 자습서도 있습니다.

http://www.ruudwetzels.com/index.php?src=SDtest

나는 이것이 요청 된 것에 대한 직접적인 반응이 아니라는 것을 알고 있지만 독자는이 훌륭한 대안을 가질 수 있다고 생각했습니다

건배


8
항상이 베이지안들 ...
Henrik

3
t- 검정에 대한 또 다른 베이지안 대안은 Kruschke의 BEST (Bayesian 추정이 t 검정을 대체 함) 루틴입니다. 자세한 정보는 여기 : indiana.edu/~kruschke/BEST . 여기에 온라인 버전 : sumsar.net/best_online .
Rasmus Bååth

7

정확한 결과는 근사치보다 선호되므로 근사치가 정확한 방법과 다른 결과를 초래할 수있는 이상한 경우를 피하십시오.

Welch 방법은 오래된 t- 검정을 수행하는 더 빠른 방법이 아니며, 매우 어려운 문제에 대한 다루기 쉬운 근사치입니다. 등분 산의 경우는 이해하기 쉽고 단순하며 정확하므로 가능하면 항상 사용해야합니다.


6
존 터키 (John Tukey)와 더 동의하는 경향이 있다고 생각합니다. " 올바르지 않은 질문에 대한 정확한 답변보다 항상 모호한 올바른 질문에 대한 대략적인 답변이 훨씬 낫습니다. "
Glen_b

4
등분 산 (Student) t- 검정 자체는 모집단 표본 분산이 같지 않을 때 (이해할 수없는) 근사치 일뿐 입니다. 따라서 모집단 분산이 같다는 것이 알려지지 않은 경우 데이터 모델에 적용되지 않는 완벽하게 정확한 분포를 사용하는 것보다 정확한 샘플링 분포 (Welch-Satterthwaite)에 대한 근사를 사용하는 것이 좋습니다.
whuber

4

내가 생각할 수있는 두 가지 이유 :

  1. 정규 학생의 T는 표본 크기가 같으면 이분산성에 상당히 강합니다.

  2. 당신이 강하게 생각되면 사전 데이터가 homoscedastic 것을, 당신은 아무것도 잃지 않고 Studen'ts T 대신 웰치의 T.를 사용하여 소량의 전력을 얻을 수있다

내가주지 않을 한 가지 이유 는 Student 's T가 정확하고 Welch 's T가 정확하지 않기 때문입니다. IMHO의 정확성은 정규 분포 데이터에 대해서만 정확하고 실제 데이터는 정확하게 정규 분포 되지 않기 때문에 학문적 입니다. 나는 사람들이 실제로 분포가 모든 실수를지지 할 수있는 곳에서 통계적으로 측정하고 분석하는 단일 수량을 생각할 수 없다. 예를 들어, 우주에는 원자가 너무 많으며 일부 양은 음수가 될 수 없습니다. 따라서 실제 데이터에 대해 모든 종류의 T- 검정을 사용하면 어쨌든 근사치입니다.


2
(1) 기본 모집단 분산이 크게 다른 경우 올바르지 않습니다. 극단적 인 경우 (이것이 왜 그런지 알기 위해) 한 모집단에 전혀 차이가 없을 때 발생하는 일을 고려하십시오. 실제로 학생 t는 다른 모집단의 데이터를 상수와 비교하는 것이지만, 자유도의 두 배가된다고 생각할 것입니다. 그것이 만드는 오류는 Z 테스트를 사용하는 것과 비슷합니다.
whuber

이것은 @whuber에 해당하지만 매우 극단적 인 경우에만 해당됩니다. 나는 단지 1e6 : 1 분산 차이와 p ≈ .053을보고있었습니다. 그래서 그것이 일어날 수는 있지만 나는 여전히 그것이 N과 같다고 주장합니다.
John

나는

@ whuber, 위의 의견은 기술적으로 사실이지만 Welch 수정은 예제로 제기 한 문제에 대한 해결책이 아니며 알파 속도 측면에서 테스트의 견고성에 매우 중요하지는 않습니다. (이것은 일반적으로 (1)의 의미입니다). 당신이 제안하는 것처럼 (극단적) 불균형이 다른 문제가있는 문제 일 때 실제로는 다른 주제입니다.
John

3

어떤 가정이 점검 될 때 더 복잡한 것이 덜 복잡한 것으로 감소한다는 사실은 더 간단한 방법을 버리는 데 충분하지 않습니다.


4
특히 학생들이 걱정하는 곳.
매트 파커

2

나는 여기서 반대 견해를 취할 것입니다. 표준 짝을 이루지 않은 학생 시험이 거의 동일한 결과를 제공 할 때 왜 Welch 시험을 방해합니까? 나는이 문제를 잠시 뒤 연구하고 t 테스트를 분석하고 Welch 테스트를 선호하기 위해 다양한 시나리오를 탐색했습니다. 그렇게하기 위해 한 그룹에서 다른 그룹에 대해 최대 5 배 더 큰 표본 크기를 사용했습니다. 그리고 한 그룹에서 다른 그룹에 대해 최대 25 배 더 큰 분산을 탐색했습니다. 그리고 그것은 실제로 물질적 차이를 만들지 않았습니다. 짝을 이루지 않은 t 테스트는 여전히 웰치 테스트와 거의 동일한 p 값 범위를 생성했습니다.

다음 링크에서 내 작품을 볼 수 있으며 특히 슬라이드 5와 6에 중점을 둡니다.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family


죄송합니다. 큰 표본 수식과 작은 표본 수식간에 어떤 차이점이 있습니까? 모집단 분산의 표본 추정치를 사용하지 않고 큰 표본에서 모집단 공식을 사용하여 분산을 계산합니까?
russellpierce

짝을 이루지 않은 학생 t 시험에는 두 가지 공식이 있습니다. 큰 표본 수식은 30 개 이상의 관측치가있는 표본에 적용됩니다. 작은 표본 공식은 30 회 미만의 관측 값을 가진 표본에 적용됩니다. 이러한 수식의 주요 차이점은 풀링 된 표준 오류를 계산하는 방법입니다. 작은 표본 공식은 훨씬 더 복잡하고 직관적이지 않습니다. 그리고 실제로는 거의 차이가 없습니다. 나는 여러 번 테스트했습니다. 그렇기 때문에 나는 대부분의 사람들이이 구별에 대해 잊어 버렸다고 생각합니다. 그리고 대부분의 경우 큰 표본 공식을 사용합니다.
Sympa

0

Welch 교정 시험의 빈번한 특성이 적어도 오류의 경우 일반 Student 's T보다 낫다는 것은 사실입니다. 나는 홀 치가 웰치 테스트에서 꽤 좋은 주장이라는 데 동의합니다. 그러나 나는 보통 Welch 보정을 권장하지 않습니다. 시험 자체에 대한 비판은 아닙니다.

Welch 보정을 권장하지 않는 이유는 자유도 및 p- 값이 도출되는 후속 이론적 분포를 변경하지 않기 때문입니다. 테스트를 비모수로 만듭니다. Welch 수정 t- 검정을 수행하려면 등분 산을 가정 할 수있는 것처럼 여전히 분산을 풀링하지만 등분 산을 가정 할 수 없거나 표본 분산 만 신경 써야한다는 최종 테스트 절차를 변경합니다. 풀링 된 분산이 모집단을 대표하지 않는 것으로 간주되고 관찰 된 값만 테스트한다는 점을 인정했기 때문에 비모수 검정이됩니다.

그 자체로는 특별히 문제가 없습니다. 그러나 a) 일반적으로 충분한 특이성으로보고되지 않기 때문에 기만적입니다. 그리고 b) 그것을 사용하는 사람들은 그것을 t- 테스트와 상호 교환 적으로 생각하는 경향이있다. 내가 출판 한 논문에서 그것이 끝났다는 것을 아는 유일한 방법은 t- 분포에 대해 홀수 DF를 보는 것입니다. 그것은 또한 Rexton (Henrik 답변에서 언급 된)이 리뷰에서 말할 수있는 유일한 방법이었습니다. 불행히도, Welch 보정 테스트의 비모수 적 특성은 자유도가 변경되었는지 여부에 관계없이 발생합니다 (예 : 표본 분산이 동일한 경우에도). 그러나이보고 문제는 Welch 수정을 사용하는 대부분의 사람들이이 테스트 변경을 인식하지 못한다는 사실의 증상입니다.

따라서이 때문에 비모수 적 테스트를 권장하려는 경우 종종 모수 적이거나 최소한 현재하고있는 일에 대해 매우 명확한 테스트를 사용하지 않는 것이 좋습니다. 테스트의 공식 이름은 비모수 적 웰치 수정 T- 테스트 여야합니다. 사람들이 그런 식으로 그것을보고하면 Henrik의 추천에 훨씬 만족할 것입니다.


Welch 테스트가 "기만적"인 이유에 대한 답변을 찾을 수 없었습니다. 그 기초를 설명해 주시겠습니까?
whuber

아마도 내 편집 내용은 @ whuber를 명확하게했습니다. 나는 그것이 기만적임을 보장하지는 않지만 종종 테스트 사용자와 테스트 결과 독자 모두에게 있음을 분명히해야했습니다.
John

1
감사합니다. 테스트의 결함으로 특성화하기에는 불공평 한보고 문제와는 별도로 Welch 테스트가 비모수 적이라는 몇 가지 이의 제기가있는 것 같습니다. 그게 무슨 문제일까요? Ceteris paribus 는 문제가 아니라 이점으로 간주되어야합니다.
whuber

1
일반적으로 명확하지 않은 구별입니다. 나는 그것이 그 자체로는 문제가 아니라는 대답을 인정하지만 대부분의 사람들은 그것을 매개 변수로 취급하는 경향이 있습니다. 비모수 적 테스트의 이점 또는 비용에 대해 논의 할 곳이 여기에 없다고 생각합니다. 또한 스레드에서 언급되지 않았으며 많은 사람들에게 문제가 될 수 있습니다. 제 2의 인트로 스탯 클래스는 스튜던트 t- 테스트와 병행하여이를 가르치고 홍보하지만 비모수 테스트에 대해서는 별도의 섹션을 가지고 있습니다.
John

"테스트를 비모수로 만든다"는 말의 의미를 명확하게 설명 할 수 있습니까?
Glen_b
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.