선형 혼합 효과 모델링의 특별한 경우로서의 쌍 대차 t- 검정


20

쌍을 이루는 t- 검정 은 단방향 반복 측정 (또는 개체 내) 분산 분석과 선형 혼합 효과 모델의 특별한 경우이며 lme () 함수를 사용하여 R의 nlme 패키지 아래 그림과 같이.

#response data from 10 subjects under two conditions
x1<-rnorm(10)
x2<-1+rnorm(10)

# Now create a dataframe for lme
myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2))
names(myDat) <- c("y", "x", "subj")

다음 쌍의 t- 검정을 실행할 때 :

t.test(x1, x2, paired = TRUE)

이 결과를 얻었습니다 (임의의 생성기로 인해 다른 결과가 나타납니다).

t = -2.3056, df = 9, p-value = 0.04657

분산 분석법을 사용하면 동일한 결과를 얻을 수 있습니다.

summary(aov(y ~ x + Error(subj/x), myDat))

# the F-value below is just the square of the t-value from paired t-test:
          Df  F value Pr(>F)
x          1  5.3158  0.04657

이제 두 조건에 대해 양의 명확한 대칭 상관 행렬을 가정하여 다음 모델에서 lme에서 동일한 결과를 얻을 수 있습니다.

summary(fm1 <- lme(y ~ x, random=list(subj=pdSymm(form=~x-1)), data=myDat))

# the 2nd row in the following agrees with the paired t-test
# (Intercept) -0.2488202 0.3142115  9 -0.7918878  0.4488
# xx2          1.3325786 0.5779727  9  2.3056084  0.0466

또는 두 조건의 상관 행렬에 대한 복합 대칭을 가정 할 때 다른 모델 :

summary(fm2 <- lme(y ~ x, random=list(subj=pdCompSymm(form=~x-1)), data=myDat))

# the 2nd row in the following agrees with the paired t-test
# (Intercept) -0.2488202 0.4023431  9 -0.618428  0.5516
# xx2          1.3325786 0.5779727  9  2.305608  0.0466

쌍으로 된 t- 검정과 일방향 반복 측정 ANOVA를 사용하여 기존 셀 평균 모델을 다음과 같이 쓸 수 있습니다.

Yij = μ + αi + βj + εij, i = 1, 2; j = 1, ..., 10

여기서 i 인덱스 조건, j 인덱스 대상, Y ij 는 반응 변수, μ는 전체 평균에 대한 고정 효과에 대해 상수, α i 는 조건에 대한 고정 효과, β j 는 N (0, σ에 따른 대상에 대한 랜덤 효과 임) p 2 ) (σ p 2 는 모집단 분산)이고, ε ij 는 N (0, σ 2 ) 다음에 잔차입니다 (σ 2 는 개체 내 분산).

위의 셀 평균 모델이 lme 모델에는 적합하지 않다고 생각했지만 문제는 상관 관계 구조 가정을 사용하는 두 개의 lme () 접근법에 대한 합리적인 모델을 제시 할 수 없다는 것입니다. 그 이유는 lme 모델이 위의 셀 평균 모델보다 랜덤 구성 요소에 더 많은 매개 변수를 가지고있는 것 같습니다. 적어도 lme 모델은 gl이 할 수없는 것과 정확히 동일한 F- 값, 자유도 및 p- 값을 제공합니다. 보다 구체적으로, gls는 각 대상체에 2 개의 관찰이 있다는 사실을 설명하지 않기 때문에 부정확 한 DF를 제공하므로, DF가 많이 부풀려진다. lme 모델은 임의 효과를 지정하는 데 과도하게 매개 변수화되어 있지만 모델이 무엇이며 매개 변수가 무엇인지 모르겠습니다. 따라서 문제는 여전히 해결되지 않았습니다.


2
무엇을 요구하는지 잘 모르겠습니다. 적어 둔 모델은 정확히 임의 효과 모델의 모델입니다. 상관 구조는 랜덤 효과에 의해 유도됩니다.
Aaron-복원 모니카

@Aaron : 셀 평균 모델의 랜덤 효과 βj는 N (0, σp2)을 따라야합니다. 혼란 스러워요.이 용어 (하나의 매개 변수 σp2 만)가 lme 모델의 복합 대칭 또는 간단한 대칭 행렬로 지정된 상관 관계 구조와 어떻게 관련되어 있습니까?
bluepole

동일한 주제에 대한 두 관측치 간의 상관 관계를 계산할 때 상관 관계는 동일한 beta_j를 공유하므로 sigma_p ^ 2 / (sigma_p ^ 2 + sigma ^ 2)입니다. Pinheiro / Bates p.8 참조. 또한 작성한 임의 효과 모델은 복합 대칭과 같습니다. 다른 상관 관계 구조는 더 복잡합니다.
Aaron-복원 모니카

@Aaron : 감사합니다! 나는 이미 이것에 대해 Pinheiro / Bates 책을 읽었지만 여전히 무작위 효과에 대한 세부 사항을 알 수 없었습니다. 더 관련성이 높은 페이지는 P.160-161의 예인 것 같습니다. 또한 복합 대칭 가정을 사용한 lme ()의 랜덤 효과 출력은 셀 평균 모델에서 σp2 / (σp2 + σ2)의 상관과 일치하지 않는 것 같습니다. 여전히 모델 구조에 대해 당황했습니다.
bluepole

복합 대칭과 거의 같습니다. CS에서 상관 관계는 음수 일 수 있지만 무작위 효과는 아닙니다. 아마도 그것은 당신의 차이가 발생하는 곳입니다. 자세한 내용은 stats.stackexchange.com/a/14185/3601 을 참조하십시오.
Aaron-복원 모니카

답변:


16

모형의 동등성은 다음과 같이 동일한 개인의 두 관측치 간의 상관 관계를 계산하여 관찰 할 수 있습니다.

와이나는제이=μ+α나는+β제이+ϵ나는제이β제이(0,σ2)ϵ나는제이(0,σ2)영형V(와이나는케이,와이제이케이)=영형V(μ+α나는+β케이+ϵ나는케이,μ+α제이+β케이+ϵ제이케이)=영형V(β케이,β케이)=σ2V아르 자형(와이나는케이)=V아르 자형(와이제이케이)=σ2+σ2σ2/(σ2+σ2)

그러나 랜덤 효과 모델이 상관 관계를 강제로 강제하기 때문에 모델이 완전히 동일하지는 않습니다. CS 모델과 t-test / anova 모델은 그렇지 않습니다.

편집 : 다른 두 가지 차이점도 있습니다. 먼저, CS 및 랜덤 효과 모델은 랜덤 효과에 대한 정규성을 가정하지만 t- 검정 / 노바 모델은 그렇지 않습니다. 두 번째로, CS 및 랜덤 효과 모델은 최대 가능성을 사용하여 적합하고, anova는 평균 제곱을 사용하여 적합합니다. 모든 것이 균형을 잡으면 그들은 동의 할 것이지만, 더 복잡한 상황에서는 반드시 그런 것은 아닙니다. 마지막으로, 나는 모델이 얼마나 동의하는지에 대한 척도로 다양한 적합치의 F / df / p 값을 사용하는 것에주의 할 것이다. 자세한 내용은 Doug Bates의 df에 대한 유명한 스크 리드를 참조하십시오. (편집 종료)

R코드 의 문제 는 상관 관계 구조를 올바르게 지정하지 않았다는 것입니다. 상관 관계 구조 gls와 함께 사용해야 합니다 corCompSymm.

주제 효과가 있도록 데이터를 생성하십시오.

set.seed(5)
x <- rnorm(10)
x1<-x+rnorm(10)
x2<-x+1 + rnorm(10)
myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), 
                    rep(paste("S", seq(1,10), sep=""), 2))
names(myDat) <- c("y", "x", "subj")

다음은 랜덤 효과와 복합 대칭 모델에 어떻게 적합한 지 보여줍니다.

library(nlme)
fm1 <- lme(y ~ x, random=~1|subj, data=myDat)
fm2 <- gls(y ~ x, correlation=corCompSymm(form=~1|subj), data=myDat)

랜덤 효과 모델의 표준 오류는 다음과 같습니다.

m1.varp <- 0.5453527^2
m1.vare <- 1.084408^2

CS 모델의 상관 및 잔차 분산은 다음과 같습니다.

m2.rho <- 0.2018595
m2.var <- 1.213816^2

그리고 그들은 기대되는 것과 같습니다.

> m1.varp/(m1.varp+m1.vare)
[1] 0.2018594
> sqrt(m1.varp + m1.vare)
[1] 1.213816

다른 상관 관계 구조는 일반적으로 임의 효과에 적합하지 않고 단순히 원하는 구조를 지정하여 적용됩니다. 한 가지 일반적인 예외는 AR (1) + 랜덤 효과 모델이며, 이는 동일한 랜덤 효과에 대한 관측치간에 랜덤 효과와 AR (1) 상관 관계가 있습니다.

EDIT2 : 세 가지 옵션에 적합하면 gls가 관심있는 용어에 대한 df를 추측하지 않는다는 점을 제외하고는 정확히 동일한 결과를 얻습니다.

> summary(fm1)
...
Fixed effects: y ~ x 
                 Value Std.Error DF   t-value p-value
(Intercept) -0.5611156 0.3838423  9 -1.461839  0.1778
xx2          2.0772757 0.4849618  9  4.283380  0.0020

> summary(fm2)
...
                 Value Std.Error   t-value p-value
(Intercept) -0.5611156 0.3838423 -1.461839  0.1610
xx2          2.0772757 0.4849618  4.283380  0.0004

> m1 <- lm(y~ x + subj, data=myDat)
> summary(m1)
...
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  -0.3154     0.8042  -0.392  0.70403   
xx2           2.0773     0.4850   4.283  0.00204 **

(차단은 기본 코딩으로 모든 주제의 평균이 아니라 첫 번째 주제의 평균이기 때문에 여기에서 다릅니다.)

최신 lme4패키지는 동일한 결과를 제공하지만 p- 값을 계산하지도 않습니다.

> mm1 <- lmer(y ~ x + (1|subj), data=myDat)
> summary(mm1)
...
            Estimate Std. Error t value
(Intercept)  -0.5611     0.3838  -1.462
xx2           2.0773     0.4850   4.283

도움에 다시 한번 감사드립니다! 나는 세포 평균 모델의 관점 에서이 부분을 알고 있습니다. 그러나 복합 대칭을 사용한 lme ()의 결과는 다음과 같습니다. 랜덤 효과 : 공식 : ~ x-1 | subj 구조 : 복합 대칭 StdDev xx1 1.1913363 xx2 1.1913363 Corr : -0.036 잔차 0.4466733. 나는 여전히 셀 평균 모델 로이 숫자를 조정할 수 없습니다. 이 숫자들을 정리하는 데 도움을 줄 수 있습니까?
bluepole

또한 간단한 대칭 행렬과 같은 다른 상관 구조를 사용한 모델 공식에 대한 생각이 있습니까?
bluepole

내가 참조! 다른 스레드에서 귀하의 답변을보다 신중하게 읽으십시오. 이전에 gls () 사용에 대해 생각했지만 상관 사양을 파악하지 못했습니다. 랜덤 효과에 대한 복합 대칭 구조를 갖는 lme ()가 여전히 동일한 t- 값을 렌더링한다는 점은 흥미롭지 만, 랜덤 효과에 대한 분산은 직접 해석 할 수없는 것 같습니다. 도와 주셔서 감사합니다!
bluepole

두 번째 생각 후에도 원래의 혼란이 여전히 해결되지 않은 것 같습니다. 예, gls는 상관 구조와 평균 제곱 럼을 보여주기 위해 사용될 수 있지만, 그 아래 모델은 paired-t 테스트 (또는 일방적 인 반복 측정 ANOVA)와 정확히 동일하지 않으며, 이러한 평가는 다음과 같습니다. 잘못된 DF 및 gl의 p- 값이 추가로 지원됩니다. 반대로 복합 대칭을 사용한 lme 명령은 동일한 F, DF 및 p- 값을 제공합니다. 내가 당황하는 유일한 것은 원래 게시물에 명시된대로 lme 모델이 어떻게 매개 변수화되는지입니다. 거기에 도움이 있습니까?
bluepole

어떻게 도와 드릴 지 잘 모르겠습니다. 두 가지 다른 모델이 무엇인지 생각할 수 있습니까? 당신이 그들 중 하나에 대해 어떻게 생각하는지에 문제가 있습니다.
복원 모니카

3

mixed패키지 afex에서 함수 를 사용하여 Kenward-Roger df 근사값으로 p 값을 반환하는 것을 고려할 수도 있습니다 .

library(afex)
mixed(y ~ x + (1|subj), type=3,method="KR",data=myDat) 

또는

library(lmerTest)
options(contrasts=c('contr.sum', 'contr.poly'))
anova(lmer(y ~ x + (1|subj),data=myDat),ddf="Kenward-Roger")
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.