쌍별 t- 검정이없는 경우 분산 분석이 유의할 수 있습니까?


29

쌍별 t- 검정이 없는 경우 일원 ( 그룹 또는 "수준") 분산 분석에서 유의미한 차이를보고 할 수 있습니까?N ( N - 1 ) / 2N>2N(N1)/2

에서 이 응답 @whuber 썼다 :

글로벌 ANOVA F 검정은 어떤 쌍의 수단에 대한 개별적인 [조정되지 않은 쌍별] t- 검정이 유의미한 결과를 산출하지 않는 경우에도 평균의 차이를 검출 할 수 있다는 것은 잘 알려져있다.

분명히 가능하지만 방법을 이해하지 못합니다. 언제 이런 일이 발생하며 그러한 경우의 직관은 무엇입니까? 누군가 그런 상황에 대한 간단한 장난감 예를 제공 할 수 있습니까?

몇 가지 추가 설명 :

  1. 그 반대의 경우도 가능합니다. 전체 분산 분석은 중요하지 않을 수 있지만, 쌍별 t- 검정 중 일부는 유의미한 차이를 잘못보고합니다 (즉, 오 탐지).

  2. 내 질문은 다중 비교 t- 검정을 위해 조정되지 않은 표준에 관한 것입니다. 조정 된 테스트가 사용되는 경우 (예 : Tukey의 HSD 절차) 전체 분산 분석이 있더라도 그 중 어느 것도 중요하지 않을 수 있습니다. 여기에는 몇 가지 질문이 포함되어 있습니다. 예를 들어 Tukey의 절차와 유의 한 전체 분산 분석을 얻을 수 있지만 쌍별 차이는 없습니까? 유의미한 ANOVA 상호 작용이지만 유의하지 않은 쌍별 비교 .

  3. 최신 정보. 내 질문은 원래 일반적인 2- 표본 쌍별 t- 검정을 언급했습니다 . 그러나 주석에서 @whuber가 지적한 것처럼 ANOVA 컨텍스트에서 t- 검정은 일반적으로 모든 그룹에 걸쳐 모인 그룹 내 분산의 ANOVA 추정치를 사용하여 사후 대조 로 이해됩니다 (두 가지에서는 발생하지 않습니다) -표본 t- 검정). 실제로 제 질문에는 두 가지 버전이 있으며, 두 가지 모두에 대한 대답은 긍정적입니다. 아래를 참조하십시오.


3
귀하의 질문은 많은 스레드로 덮여 있습니다 : 중요한 회귀 에 대한 사이트 검색을 시도하십시오 . (ANOVA는 최소 제곱 회귀 분석의 응용 프로그램입니다.) 예를 들어, stats.stackexchange.com/questions/14500/… 은 명확한 예와 직관을 제공합니다. 이 질문들을 조사하고 가능한 경우 이전 스레드와 구별하기 위해 질문을 편집하십시오.
whuber

고마워, 나는 전에 본 적이 없다. 그러나 다중 회귀 분석에 대한 이러한 설명을 분산 분석 언어로 번역하는 데 어려움을 겪었습니다. 이것은 물론 내 자신의 문제이지만, 나는 혼자가 아니라고 생각하므로 내 질문에 대한 대답은 여전히 ​​지역 사회에 유용 할 것입니다. 여기 내 혼동이 있습니다. 누군가가 왼쪽 / 오른쪽 신발 크기 (두 개의 강한 상관 관계 IV) => F signif, t not에 대한 회귀 가중치의 예를 제시했습니다. 아주 잘. 이제 3 개의 그룹이있는 ANOVA 회귀 분석에는 2 개의 더미 IV가 있습니다. 그들은 더미 => 항상 완벽하게 상호 관련이 있습니다 ... 그리고 무엇?
amoeba는 Reinstate Monica

마지막 말을 따르지 않을까 걱정됩니다. 첫째,이 문제가 반드시 디자인 매트릭스의 강력한 상관 관계와 관련이있는 것은 아닙니다. 둘째, 인형은 "완벽한 반 상관 " 이 아닙니다 . 만약 그렇다면 소프트웨어는 어쨌든 그 중 하나를 떨어 뜨려야합니다. 복잡한 ANOVA 모델에서 미묘한 문제를 언급했을 수도 있습니다 .
whuber

@amoeba : 더미 변수는 음의 상관 관계가 있습니다.
Michael M

3
나는 당신의 "추가 언급"에 예외를 두지 않습니다. 1. 쌍별 비교가 매우 중요하고 유의하지 않은 F가 그 중대한 결과가 오 탐지를 의미하지는 않습니다. 어떤 것이 거짓 긍정인지 확실히 알기 위해서는 실제 수단 인 mu의 차이가 없다는 것을 알아야합니다. F 통계량은 신성하지 않습니다. 실제로, 그것은 의무 적이지도 않습니다. 모델 선택에 가장 유용하지만 그 이상으로 데이터에서 구체적으로 진행되고있는 정보는 거의 없습니다.
rvl

답변:


18

참고 : 원래 예제에 문제가있었습니다. 나는 R의 조용한 논쟁 재활용에 어리석게 잡혔다. 나의 새로운 예는 나의 예와 아주 비슷합니다. 바라건대 모든 것이 지금입니다.

다음은 5 % 수준에서 ANOVA가 유의하지만 5 쌍 수준에서도 6 쌍별 비교 중 어느 것도 중요하지 않은 예입니다 .

데이터는 다음과 같습니다.

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

여기에 이미지 설명을 입력하십시오

분산 분석은 다음과 같습니다.

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

다음은 두 가지 샘플 t- 검정 p- 값 (동일 분산 가정)입니다.

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

그룹 평균 또는 개별 포인트를 조금 더 다루면 유의성 차이가 더 두드러 질 수 있습니다 (t 테스트에 대한 첫 번째 p- 값을 작게하고 6 개의 p- 값 세트 중 가장 낮을 수 있음) ).

-

편집 : 다음은 원래 트렌드에 대해 소음으로 생성 된 추가 예제입니다.

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F의 p- 값은 3 % 미만이고 t의 p- 값은 8 % 미만이 아닙니다. (3 군 예의 경우 F에서 p- 값이 약간 더 큰 경우-두 번째 군은 생략)

그리고 여기에 3 개의 그룹이있는 인공적이고 단순한 인공적인 예가 있습니다 :

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(이 경우 가장 큰 분산은 중간 그룹에 있지만 표본 크기가 클수록 그룹 평균의 표준 오차는 여전히 작습니다)


다중 비교 t- 검정

whuber는 다중 비교 사례를 고려할 것을 제안했습니다. 꽤 흥미 롭습니다.

여러 그룹의 비교에서 크고 작은 분산 또는 더 적은 수의 df를 가지고 노는 것이 도움이되지 않기 때문에 다중 비교의 경우 (원래 유의 수준에서 수행 된 (즉, 다중 비교를 위해 알파를 조정하지 않은 경우)) 달성하기가 다소 어렵습니다. 일반 2- 표본 t- 검정과 동일한 방식으로

그러나 우리는 여전히 그룹 수와 중요성 수준을 조작하는 도구를 가지고 있습니다. 더 많은 그룹과 더 작은 유의 수준을 선택하면 사례를 식별하는 것이 비교적 간단 해집니다. 여기 하나가 있습니다 :

나는=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

그러나 쌍별 비교에서 가장 작은 p- 값은 해당 수준에 중요하지 않습니다.

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
2- 표본 t- 검정은 회귀 분석의 쌍별 검정과 동일하지 않습니다. 차이는 잔차 분산 추정치에 있습니다. 따라서 귀하의 예는 실제로 강력한 역설의 예가 아닙니다. 즉 동일한 회귀 분석 내 에서 F- 검정은 유의할 수 있지만 쌍별 비교는 중요하지 않습니다. 나는이 역설이 이분산성에서 비롯된 것은 아니라고 믿는다. 모든 그룹 분산이 같더라도 나타날 수있다.
whuber

4
더이 때 주소로 수 있습니다 여전히 흥미 가능 은 F-테스트가 널을 거부하지만 페어의 t-테스트 아무도합니다 (F-시험과 동일한 오류 분산 추정치를 사용하여) 같은 유의 수준에서 그것을 거부하지하는. 예를 들어, 동일한 표본 크기를 가진 3 개의 그룹의 경우, 쌍별 t- 검정에 대한 5 % 거부 영역의 결합에는 표본 크기가 매우 커도 ANOVAR F- 검정에 대한 5 % 거부 영역이 포함됩니다.
Scortchi-Monica Monica 복원

4
0.005에프

4
아메바, 혼란은 "쌍별 t- 검정"이 두 가지를 의미 할 수 있다는 사실에서 비롯된다. ANOVA와 관련하여, 일반적으로 ANOVA 추정값을 사용한 사후 대비 를 의미하는 것으로 이해됩니다 . 다른 사람들이 지적했듯이, ANOVA 버전은 모든 그룹 에서 파생 된 그룹 내 분산의 추정치를 기반으로하기 때문에 그룹 쌍에 대해 일반적인 t- 검정을 수행하는 것과 동일하지 않습니다 .
whuber

2
좋은 요약을했다고 생각합니다. 모든 테스트가 단일 분산 분석의 프레임 워크 내에서 수행 될 때 내부적으로 일관성이있을 것으로 기대한다는 점에서 역설을 "강력한"것으로 언급했습니다. (본질적으로 관련이없는 두 가지 테스트를 수행 할 때 충돌하는 결과를 낳는 것은 그리 놀라운 일이 아닙니다. 자주 발생합니다.) 그룹을 결론 짓는 것이 논리적으로 일관되고 통계적으로 유효하다는 사실을 받아 들여야합니다. 특정 그룹 쌍 사이의 차이를 찾지 않으면 서 의미는 크게 다릅니다.
whuber

4

요약 : 나는 이것이 가능하지만, 매우 가능성이 낮다고 믿는다. 차이는 작을 것이고, 만약 발생한다면, 가정은 (예 : 분산의 동질성) 위반 한 것이기 때문입니다.

이러한 가능성을 찾는 몇 가지 코드가 있습니다. 시드가 실행될 때마다 시드가 1 씩 증가하므로 시드가 저장됩니다 (시드를 통한 검색은 체계적 임).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

중요한 R2를 찾고 중요하지 않은 t- 검정을 찾지 않으면 서 18,000 종자까지 아무것도 발견하지 못했습니다. t- 검정보다 R2에서 더 낮은 p- 값을 검색하면 seed = 323에서 결과를 얻지 만 그 차이는 매우 작습니다. 매개 변수를 조정하면 (그룹 수가 증가합니까?) 도움이 될 수 있습니다. R2 p- 값이 더 작은 이유는 회귀 분석의 매개 변수에 대해 표준 오차를 계산할 때 모든 그룹이 결합되어 차이의 표준 오차가 잠재적으로 t- 검정보다 작기 때문입니다.

이분산성을 위반하는 것이 도움이 될지 궁금했습니다. 그렇습니다. 내가 사용하면

y <- (rnorm(600) + x * 0.01) * x * 5

y를 생성하려면 seed = 1889에서 적절한 결과를 얻습니다. 여기서 t- 검정의 최소 p- 값은 0.061이고 R- 제곱과 관련된 p- 값은 0.046입니다.

그룹 크기가 다른 경우 (이분산성 위반의 영향을 증가시키는) x 샘플링을 다음과 같이 대체합니다.

x <- sample(c(0:5), 100, replace=TRUE)

시드 = 531에서 중요한 결과를 얻었습니다. 최소 t- 테스트 p- 값은 0.063이고 R2의 p- 값은 0.046입니다.

t- 검정에서 이분산성 수정을 중지하면 다음을 사용하십시오.

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

내 결론은 이것이 일어날 가능성이 거의 없으며 회귀에서 동성애 가정을 위반하지 않는 한 그 차이는 매우 작을 것입니다. 강력 / 샌드위치 / 수정이라고 부르는 것을 사용하여 분석을 실행 해보십시오.


"t- 검정에서 이분산성 수정을 중지하면"로 시작하는 미완료 문장이있는 것 같습니다. 그 외에도 감사합니다! 질문에 대한 내 업데이트를 참조하십시오. 또한 @whuber의 첫 번째 주석은 여기에 있습니다. 내가 올바르게 이해한다면, 그는 그런 상황이 쉽게 일어날 수 있다고 주장한다 (?). 어쩌면 여기에 오해가있을 수 있지만 무엇입니까?
amoeba는 Reinstate Monica

@ whuber가 중요하지 않은 t 테스트가 아닌 모델의 중요하지 않은 매개 변수에 대해 이야기하고 있다고 생각합니다.
Jeremy Miles

아뇨. 그것이 잘 알려져 있다면, 나는 그것을 모른다. 나는 예제를 생각해 냈지만 할 수 없다.
Jeremy Miles

1
그렇다면 @Glen_b가 간단한 예를 만들어 낸 것이 기쁩니다. 직감은 전체 검정에서 그룹 평균의 산포가 잔차 분산만으로 합리적으로 설명 될 수 없다는 증거가 있는지 여부를 평가한다는 것입니다. 한 번에 두 가지 수단 만 사용하는 쌍별 검정은 동일한 증거를 평가하는 데 상당히 보수적이어야합니다. 따라서 두 극단 그룹 평균을 비교하더라도 모든 평균 의 전체 분포가 유의하면 유의미한 차이를 발견하지 못할 수 있습니다 . 이것은 때때로, 특히 많은 수의 그룹에서 실제로 발생합니다.
whuber

3
BTW, 이것을 "잘 알려진"이라고 부르는 이유는 Systat 소프트웨어 매뉴얼 c에 대한 경고에 대한 기억입니다. c. 1989.이 책은 매우 유익한 매뉴얼 (대부분 개발자 인 Leland Wilkinson이 개인적으로 작성)이었으며 여전히 그럴 것입니다. 매뉴얼은 온라인이지만 Systat 사이트에 다운로드하여 다운로드 할 수 있습니다.
whuber

2

전적으로 가능합니다 :

  • 하나 이상의 pairwise t-test는 의미가 있지만 전체 F-test는 그렇지 않습니다
  • 전체 F- 검정은 유의하지만 쌍별 t- 검정은

전체 F 테스트는 모든 대조를 동시에 테스트합니다 . 따라서 개별 대비 (예 : 쌍별 테스트)에 덜 민감해야합니다 (통계량 감소). 두 시험은 서로 밀접하게 관련되어 있지만되어 있지 정확히 같은 일을보고.

보다시피, 전체 F- 검정이 유의하지 않는 한 계획된 비교를하지 않는 교과서 권장 사항이 항상 올바른 것은 아닙니다. 실제로, 전체 F 검정이 특정 차이를 검정하기위한 계획된 비교보다 검정력이 적기 때문에 권장 사항으로 인해 유의미한 차이를 발견하지 못할 수 있습니다.


나는 당신의 대답의 논리를 따르지 않습니다. F- 검정에 의한 H0의 기각은 적어도 0이 아닌 대비가 있음을 의미하지만이 대비는 쌍별 비교와 일치하지 않을 수 있습니까? 그렇다면, F- 검정이 H0 를 기각 할 경우 가능한 모든 대비 에 대한 한 쌍의 시험 중 하나라도 기각으로 이어질 것입니까?
amoeba는

@amoeba 내 답변을 편집했습니다.
SmallChess
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.