혼합 모형 (lme4)에서 범주 형 요인에 대한 "전체"p- 값 및 효과 크기를 얻는 방법은 무엇입니까?


28

독립적 인 범주 형 변수 (여러 수준)의 p- 값과 효과 크기를 얻고 싶습니다. 즉, "전체"이며 각 수준에 대해 개별적으로는 아닙니다 ( lme4R 의 일반 출력 과 동일). 분산 분석을 실행할 때 사람들이보고하는 것.

어떻게 구할 수 있습니까?


정확히 어떤 통계를 원하십니까? 이 anova()함수를 사용하면 선형 모델과 마찬가지로 선형 혼합 모델이있는 anova 테이블을 얻을 수 있습니다 .
smillig

anova ()를 시도했지만 Df, Sum Sq, Mean Sq 및 F 값이 표시됩니다. 효과 크기와 p 값이 보이지 않습니다. 이것에 대한 아이디어가 있습니까?
user3288202

1
효과 크기에 따라 와 동등한 의미 입니까? p- 값과 관련하여, 그들의 추정과 그것들의 이행에 관한 길고 실질적인 논쟁이있다 . 자세한 내용 은 이 질문에 대한 토론을보십시오 . 아르 자형2lme4
smillig

링크 감사합니다, Smilig. 그것은 p 값 계산에 문제가 있기 때문에 전체적으로 요인의 효과 크기도 문제라는 것을 의미합니까?
user3288202

직접적으로 관련된 문제는 아닙니다. 그러나 선형 혼합 모형은 임의의 효과가없는 선형 모형과 똑같이 동작하지 않으므로 선형 모형에 적합한 측정 값이 혼합 모형으로 일반화 될 필요는 없습니다.
smillig

답변:


48

언급 한 두 가지 개념 (선형 혼합 모델의 p- 값 및 효과 크기)에는 고유 한 문제가 있습니다. 효과 크기와 관련 하여 원래 작성자 인 Doug Bates를 인용하면 lme4,

측정 값 을 정의하려고한다고 가정하면 선형 모델의 잔차 제곱합을 고려하는 것과 같은 방식으로 선형 혼합 모델의 처벌 된 잔차 제곱합을 처리하기 위해 인수를 만들 수 있다고 생각합니다. 또는 주어진 정밀한 세트에서 얻을 수있는 벌점 또는 최소 잔차 제곱없이 무한 제곱합을 사용할 수 있는데, 이는 무한 정밀도 행렬에 해당합니다. 정말 모르겠습니다. 그것은 당신이 특성화하려는 것에 달려 있습니다.아르 자형2

자세한 정보는 이 스레드 , 이 스레드이 메시지를 볼 수 있습니다. 기본적으로 문제는 모형의 랜덤 효과에서 분산을 포함하고 분해하는 데 합의 된 방법이 없다는 것입니다. 그러나 사용되는 몇 가지 표준이 있습니다. r-sig-mixed-models 메일 링리스트에 대해 / 위키 설정을 살펴보면 몇 가지 접근 방식이 나열되어 있습니다.

제안 된 방법 중 하나는 적합치와 관측 값 사이의 상관 관계를 살펴 봅니다. Jarrett Byrnes가 제안한 스레드 중 하나 에서 R 로 구현할 수 있습니다 .

r2.corr.mer <- function(m) {
  lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
  summary(lmfit)$r.squared
}

예를 들어, 다음 선형 혼합 모형을 추정한다고 가정합니다.

set.seed(1)
d <- data.frame(y = rnorm(250), x = rnorm(250), z = rnorm(250),
                g = sample(letters[1:4], 250, replace=T)       )
library(lme4)
summary(fm1 <- lmer(y ~ x + (z | g), data=d))
# Linear mixed model fit by REML ['lmerMod']
# Formula: y ~ x + (z | g)
#    Data: d
# REML criterion at convergence: 744.4
# 
# Scaled residuals: 
#     Min      1Q  Median      3Q     Max 
# -2.7808 -0.6123 -0.0244  0.6330  3.5374 
# 
# Random effects:
#  Groups   Name        Variance Std.Dev. Corr 
#  g        (Intercept) 0.006218 0.07885       
#           z           0.001318 0.03631  -1.00
#  Residual             1.121439 1.05898       
# Number of obs: 250, groups: g, 4
# 
# Fixed effects:
#             Estimate Std. Error t value
# (Intercept)  0.02180    0.07795   0.280
# x            0.04446    0.06980   0.637
# 
# Correlation of Fixed Effects:
#   (Intr)
# x -0.005

위에서 정의한 함수를 사용하여 효과 크기를 계산할 수 있습니다.

r2.corr.mer(fm1)
# [1] 0.0160841

Ω02

1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
# [1] 0.01173721  # Usually, it would be even closer to the value above

p- 값과 관련하여 이것은 훨씬 더 논쟁적인 문제입니다 (적어도 R / lme4커뮤니티에서는). 질문의 논의를 참조하십시오 여기 , 여기 , 그리고 여기에 많은 다른 사람의 사이에서. Wiki 페이지를 다시 참조하면 선형 혼합 모델의 효과에 대한 가설을 테스트하는 몇 가지 방법이 있습니다. "최악에서 최고로"( Wiki 페이지 의 저자에 따르면 Doug Bates와 Ben Bolker가 여기에 많이 기여한다고 생각합니다.)

  • Wald Z- 테스트
  • df를 계산할 수있는 균형 잡힌 중첩 LMM : Wald t-tests
  • 우도 비 테스트, 어느 파라미터가 분리 될 수 있도록 모델을 설정하여 / (통해 적하 anova또는 drop1) 또는 우도 정보를 연산 경유
  • MCMC 또는 파라 메트릭 부트 스트랩 신뢰 구간

그들은 Markov 체인 Monte Carlo 샘플링 접근법을 권장하고 아래 나열된 의사 및 완전 베이지안 접근법을 통해이를 구현할 수있는 여러 가지 가능성을 제시합니다.

의사 베이 저 :

  • 사후 샘플링, 일반적으로 (1) 플랫 사전을 가정하고 (2) MLE에서 시작하며, 아마도 근사 분산 공분산 추정을 사용하여 후보 분포를 선택합니다.
  • 비아 mcmcsamp(문제에 대한 가능한 경우 : 단순 무작위 효과 즉, LMMS -하지 GLMMs 복잡한 임의 효과)
    를 통해 pvals.fnc에서 languageR패키지에 대한 래퍼 mcmcsamp)
  • AD Model Builder에서 glmmADMB패키지 를 통해 ( mcmc=TRUE옵션 사용 ) 또는 R2admb패키지 (AD Model Builder에서 고유 한 모델 정의 작성) 또는 R 외부에서 가능
  • 패키지 의 sim함수를 통해 arm(베타 (고정 효과) 계수에 대해서만 후방을 시뮬레이션합니다.

완전히 베이지안 접근 :

  • MCMCglmm패키지를 통해
  • 사용 glmmBUGS(WinBUGS 래퍼 / R 인터페이스)
  • rjags/ r2jags/ R2WinBUGS/ BRugs패키지 를 통해 JAGS / WinBUGS / OpenBUGS 등 사용

설명을 위해 이것이 어떻게 보이는지 보여주기 위해 아래는 패키지를 MCMCglmm사용하여 추정 한 것으로 MCMCglmm, 위의 모델과 비슷한 결과가 나오고 일종의 베이지안 p- 값이 있습니다.

library(MCMCglmm)
summary(fm2 <- MCMCglmm(y ~ x, random=~us(z):g, data=d))
# Iterations = 3001:12991
# Thinning interval  = 10
#  Sample size  = 1000 
# 
#  DIC: 697.7438 
# 
#  G-structure:  ~us(z):g
# 
#       post.mean  l-95% CI u-95% CI eff.samp
# z:z.g 0.0004363 1.586e-17 0.001268    397.6
# 
#  R-structure:  ~units
# 
#       post.mean l-95% CI u-95% CI eff.samp
# units    0.9466   0.7926    1.123     1000
# 
#  Location effects: y ~ x 
# 
#             post.mean l-95% CI u-95% CI eff.samp pMCMC
# (Intercept)  -0.04936 -0.17176  0.07502     1000 0.424
# x            -0.07955 -0.19648  0.05811     1000 0.214

이것이 다소 도움이되기를 바랍니다. 선형 혼합 모델로 시작하여 R 에서이를 추정하려고 시도하는 사람에게 가장 좋은 조언은 대부분의 정보가 작성된 Wiki FAQ 를 읽는 것입니다. 기본에서 고급, 모델링에서 플로팅에 이르기까지 모든 종류의 혼합 효과 테마에 대한 훌륭한 리소스입니다.


대단히 감사합니다. 따라서 전체 매개 변수의 효과 크기를보고하지 않을 수 있습니다.
user3288202

아르 자형2

3
+6, 인상적으로 명확하고 포괄적이며 철저한 주석이 추가되었습니다.
gung-Monica Monica 복원

1
또한 afex 패키지와 특히 혼합 기능을 살펴볼 수 있습니다. 여기를
beginneR

6

유의성 ( p ) 값 계산과 관련하여 Luke (2016) R에서 선형 혼합 효과 모델의 유의성 평가 는 최적의 방법이 자유도에 대한 Kenward-Roger 또는 Satterthwaite 근사치 (R과 같은 패키지로 제공됨)라고보고합니다. lmerTest또는 afex).

추상

혼합 효과 모델은 실험 데이터 분석에서 훨씬 더 자주 사용됩니다. 그러나 R의 lme4 패키지에서 이러한 모델에서 고정 효과의 중요성을 평가하는 표준 (p- 값 획득)은 다소 모호합니다. 이에 대한 충분한 이유가 있지만,이 모델을 사용하는 연구자들은 많은 경우 p- 값을보고해야하므로 모델 출력의 중요성을 평가하는 방법이 필요합니다. 이 논문은 가능성 비 테스트를 사용하고 모델 분포 (t-as-z)의 Wald t 값에 z 분포를 적용하는 중요성을 평가하는 가장 일반적인 두 가지 방법이 다소 보수적이지 않음을 보여주는 시뮬레이션 결과를보고합니다. 특히 작은 샘플 크기에 적합합니다. 중요성 평가를위한 다른 방법들이러한 시뮬레이션의 결과는 제 1 형 에러 레이트는, 모델이 Kenward-로저 또는 Satterthwaite 근사치를 이용하여 유도된다 REML 및 p- 값을 사용하여 장착 될 때 0.05에 가장 가까운 것을 제안 모두 제조 허용 가능한 타입 1 에러 레이트 더 작은 이러한 근사치로서 시료.

(강조 추가)


4
+1이 링크를 공유해 주셔서 감사합니다. Kenward-Roger 근사값을 lmerTest패키지 에서 사용할 수 있다고 간단히 언급하겠습니다 .
amoeba는

5

lmerTest패키지를 사용합니다 . 이것은 편리하게 anova()내 MLM 분석 에 대한 출력 의 p- 값 추정을 포함 하지만 다른 게시물에 제공된 이유로 효과 크기를 제공하지는 않습니다.


1
필자의 경우 p 값을 포함하여 모든 대비 쌍을 제공하므로 lsmeans를 사용하여 쌍 단위 비교를 선호합니다. lmerTest를 사용하는 경우 모든 대비 쌍을 보려면 서로 다른 기준선으로 6 번 모델을 실행해야합니다.
user3288202
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.