두 그룹에 대한 t- 검정과 분산 분석이 동일하다면 왜 가정이 같지 않습니까?


47

나는 이것을 머리 둘레에 완전히 감쌌다 고 확신하지만 그것을 알아낼 수는 없다.

t- 검정은 Z 분포를 사용하여 두 정규 분포를 비교합니다. 이것이 DATA에 정규성이 있다고 가정 한 이유입니다.

분산 분석은 더미 변수를 사용한 선형 회귀 분석과 동일하며 OLS와 마찬가지로 제곱합을 사용합니다. 이것이 RESIDUALS의 정규성에 대한 가정이있는 이유입니다.

몇 년이 걸렸지 만 마침내 그 기본 사실을 파악했다고 생각합니다. 그렇다면 t- 검정이 두 그룹을 가진 분산 분석과 동일한 이유는 무엇입니까? 데이터에 대해 동일한 것을 가정하지 않으면 어떻게 동등 할 수 있습니까?


15
한 점 : t-테스트는 t 배포하지 Z 분포를 사용
제로미 Anglim

1
질문이 정확하지 않더라도 매우 유용합니다. 또한, "two tailed t-test"를 언급하면 ​​질문 / 답변이 더 완벽해질 것입니다.
Gaurav Singhal

답변:


29

두 그룹에 대한 t- 검정은 각 그룹이 일반적으로 동일한 분산으로 분포되어 있다고 가정합니다 (대체 가설에 따라 평균이 다를 수 있음). 회귀는 각 그룹의 평균이 다르지만 분산은 허용하지 않기 때문에 더미 변수를 사용한 회귀와 같습니다. 따라서 잔차 (그룹 평균을 뺀 데이터와 동일)는 같은 분포를 갖습니다. 즉, 일반적으로 평균이 0으로 분포됩니다.

분산이 같지 않은 t- 검정은 일원 분산 분석과 동일하지 않습니다.


3
인용을 찾아 볼 수는 있지만 경험적으로 테스트하기에 충분히 쉽습니다. 두 그룹을 가진 ANOVA의 F는 t ^ 2와 정확히 같고 p- 값은 정확히 같습니다. 분산이 같지 않은 경우에 동일하지 않은 유일한 이유는 보정을 적용하는 것입니다. 그렇지 않으면 동일합니다.
Brett

3
F- 검정은 t 검정의 일반화입니다. t- 검정은 2 개의 치료 비교를위한 것이고 F- 검정은 다중 치료를위한 것이다. 파생은 Casella의 Statistical Design, 3 장 및 4 장에 있습니다. 그러나 Hyndman 교수가 지적한 바와 같이, 불균일 한 분산으로 인해 더 이상 t 검정이 아닙니다. Fisher Behren의 문제입니다. 우리는 일반적으로 Fisher의 솔루션을 사용하지 않고 대신 Welch 's Test 또는 Bayesian 접근법을 사용합니다.
suncoolsu

동일하지 않은 분산을 갖는 2- 표본 t- 검정은 실제로 두 그룹을 가진 일원 분산 분석과 같습니다. 아마도 당신이 의미하지 않은 분산 (즉 Welch)에 대한 보정을 사용한 t- 검정은 수정되지 않은 일원 분산 분석과 동일하지 않은 것입니다 (왜 그래야할까요)?
Brett

20

t- 검정은 단순히 두 그룹 만 비교되는 F- 검정의 특별한 경우입니다. 결과는 p- 값의 관점에서 정확히 동일하며 F와 t 통계 간에도 간단한 관계가 있습니다. F = t ^ 2. 두 테스트는 대수적으로 동일하며 가정은 동일합니다.

실제로, 이러한 동등성은 전체 종류의 분산 분석, t- 검정 및 선형 회귀 모델로 확장됩니다. t- 검정은 ANOVA의 특별한 경우입니다. 분산 분석은 특별한 회귀 분석입니다. 이 모든 절차는 일반 선형 모형에 포함되며 동일한 가정을 공유합니다.

  1. 관찰의 독립성.
  2. 잔차의 정규성 = 특별한 경우 각 그룹의 정규성.
  3. 동일한 경우 잔차의 분산 = 특별한 경우 그룹 간 동일한 분산입니다.

데이터의 정규성으로 생각할 수도 있지만 각 그룹의 정규성을 확인하고 있습니다. 실제로 모형의 유일한 예측 변수가 그룹의 지표 일 때 잔차의 정규성을 확인하는 것과 같습니다. 마찬가지로 분산이 동일합니다.

R은 ANOVA에 대해 별도의 루틴을 가지고 있지 않습니다. R의 anova 함수는 선형 회귀 모델에 맞는 것과 동일한 lm () 함수의 래퍼 일뿐입니다. 회귀 요약이 아니라 분산 분석 요약에서 일반적으로 발견되는 것을 제공하기 위해 약간 다르게 포장되었습니다.


lm을 사용하여 반복 측정 ANOVA 모델을 맞추는 방법을 알고 싶습니다.
AndyF

1
범주 형 변수 코딩, 회귀 및 분산 분석 모형의 동등성, 반복 측정에 대한 회귀 코딩 문제는이 기사에서 설명합니다. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… 인용은 다음과 같습니다 ... Wendorf, CA (2004). 다중 회귀 코딩에 대한 입문서 : 일반적인 형태와 반복되는 대비의 추가 사례 통계 이해 3, 47-57.
Brett

4
@AndyF Not lm(), nlme또는 lme4패키지 가있는 혼합 모델로 이동하지 않는 한의 Error용어 를 적절히 지정하여 반복 측정을 처리하는 편리한 방법이 있습니다 aov(). Baron & Li tutorial, §6.9, j.mp/ c5ME4u
chl

@AndyF aov()lm()함수 위에 구축 되었지만 특수 용어와 같은 추가 인수를 포함 Error합니다.
chl

aov ()는 lm ()의 래퍼입니다. 장면 뒤의 대비 코딩을 수행하고 결과를 ANOVA 스타일로 패키지화합니다. 모든 것은 lm ()에 의해 모델링됩니다. 위에서 언급 한 기사에서 lm ()을 포함하여 회귀 모델에서 반복 대비를 수행하도록 코딩을 설정하는 방법을 설명합니다.
Brett

17

Rob의 답변에 전적으로 동의하지만 다른 방법으로 wikipedia를 사용하여 설명하겠습니다.

가정 분산 분석 :

  • 사례의 독립성 – 이것은 통계 분석을 단순화하는 모델의 가정입니다.
  • 정규성 – 잔차 분포가 정상입니다.
  • 균일 성이라고하는 분산의 동일성 (또는 "균질성")

가정 t- 검정 :

  • 비교되는 두 모집단 각각은 정규 분포를 따라야합니다 ...
  • ... 비교되는 두 모집단은 동일한 분산을 가져야합니다 ...
  • 테스트를 수행하는 데 사용 된 데이터는 비교할 두 모집단과 독립적으로 샘플링해야합니다.

따라서 나는 분명히 같은 가정을 가지고 있기 때문에 질문을 반박 할 것입니다 (그러나 다른 순서로 :-)).


Rob의 의견을 참조하십시오.
Alexis

@Alexis 나는 당신의 downvote를 이해하지 못합니다. 정교하게 관리하십시오.
Henrik

두 번째 t 테스트 가정은 사실이 아닙니다. 이를 통한 학생의 원래 연구는 이것을 가정했지만 "불균형 차이"는 나중에 시험을 처리 할 때 충분히 일반적인 가정입니다.
Alexis

5

모든 사람들이 간과 한 한 가지 분명한 점 : ANOVA를 사용하면 설명 변수의 값에 관계없이 평균이 동일한 null을 테스트합니다. T- 검정을 사용하면 단측 사례를 테스트 할 수도 있습니다. 즉, 평균이 설명 변수의 값 중 하나가 다른 값보다 높을수록 더 큽니다.


1
내가 착각하지 않는 한, 이것은 차이가 아닙니다. 두 그룹에서 분산 분석을 수행하는 경우 t- 검정에서와 같이 "단면 테스트"를 수행 할 수 있습니다. "단면 테스트"와 "양면 테스트"사이의 "테스트"에는 실제로 차이가 없기 때문에 "단면 테스트"를 따옴표로 묶었습니다. 유일한 차이점은 p- 값의 통계적 유의성을 해석하는 방법입니다. 따라서 단측 및 양측 "테스트"는 정확히 동일한 "테스트"입니다. 결과를 올바르게 해석하는 방법 만 다릅니다.
Tripartio

-3

나는 두 그룹을 비교하기 위해 t-test를 선호하고 이유 때문에 2 개 이상의 그룹에 대해 ANOVA를 사용할 것입니다. 중요한 이유는 등분 산 가정입니다.


5
@syed 사이트에 오신 것을 환영합니다. 답을 넓히시겠습니까? 예를 들어, 어떤 "이유"를 언급하고 있습니까? 참고 것을 모두 t- 검정 및 ANOVA는 등분 산을 가정합니다.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.