데이터의 일부 변동에도 불구하고 혼합 모델에서 랜덤 효과의 분산이 0 인 이유는 무엇입니까?


22

다음 구문을 사용하여 혼합 효과 로지스틱 회귀 분석을 실행했습니다.

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

주제와 항목은 무작위 효과입니다. 주제 항에 대한 계수와 표준 편차가 모두 0 인 홀수 결과를 얻습니다.

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

피사체마다 차이가 있기 때문에 이런 일이 일어나지 않아야합니다. 스타 타에서 동일한 분석을 실행할 때

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

결과는 주제 용어에 대해 0이 아닌 계수 / se로 예상 된대로입니다.

원래 우리는 이것이 주제 용어의 코딩과 관련이 있다고 생각했지만 이것을 문자열에서 정수로 변경해도 아무런 차이가 없었습니다.

분명히 분석이 제대로 작동하지 않지만 어려움의 원인을 찾아 낼 수는 없습니다. (이 포럼의 다른 사람이 비슷한 문제를 겪고 있지만이 스레드는 질문에 대한 답변 이없는 링크로 남아 있습니다 )


2
"피사체에 차이가 있기 때문에"이런 일이 일어나지 말아야한다고하지만, 우리는 subject이 변수에 대해 무엇이 있는지 또는 다른 것을 알지 못하기 때문에 우리에게 "명백한"것은 아닙니다! Stata 분석의 주제 용어 "는 7.18e-07입니다! 기술적으로는 0이 아닌 것 같지만 0에서 그리 멀지 않습니다 ...!
smillig

관찰 해 주셔서 감사합니다. 피험자는 연구에 참여하며 수행 능력에 변화가있을 수 있습니다. 평균 점수는 39 % 정확했으며 표준 편차는 11 %입니다. 보고 된 통계에서이 값이 0.000보다 큰 것으로 나타날 것으로 예상되지만 잘못되었을 수 있습니다. 물론 7.18e-07은 0.000과 같으며 0.000이 반드시 0 일 필요는 없습니다.
Nick Riches

1
각 피험자는 몇 번이나 테스트 / 샘플링 했습니까? 연구의 실질적인 측면을 알지 못하면 Stata가 과목 내 변동이 0.000000718 (표준 오류 0.378)이고 R이 그것이 0.000이라고 말하면 실제로 변동이 없다는 이야기는 아닙니다 주제 수준에서? 또한 Stata는 대상 변형에 대한 신뢰 구간을 제공하지 않습니다.
smillig

의견에 다시 한번 감사드립니다. 대상은 11 번 시험되었다. 이것은 그룹 및 아이템 효과가 설명되면 참가자간에 거의 변화가 없다는 것을 의미한다고 생각합니다. 조금 "의심스러운"것처럼 보이지만 두 가지 다른 분석에서 일관성이 있다고 생각합니까?
Nick Riches

답변:


27

이에 대한 자세한 내용은 https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html ( "단일 모델 검색")을 참조하십시오. 특히 적은 수의 그룹이있는 경우에 일반적입니다 (이 문맥에서는 30 개가 특별히 작지는 않지만).

다른 lme4많은 패키지와의 차이점은 lme4전임자를 포함한 많은 패키지 nlme가 로그 스케일에 분산을 적용하여 분산 추정값이 음수가 아니어야한다는 사실을 처리한다는 것입니다. 즉, 분산 추정값 이 정확히 0 일 수는 없습니다. 매우 작은. lme4대조적으로, 제한된 최적화를 사용하므로 정확히 0 인 값을 반환 할 수 있습니다 (자세한 내용은 http://arxiv.org/abs/1406.5823 p. 24 참조 ). http://rpubs.com/bbolker/6226 에 예가 있습니다.

특히 Stata의 개체 간 편차 결과를 자세히 살펴보면 Wald 표준 편차가 .3783434 (이 경우 본질적으로 쓸모가 없음) 인 추정치 7.18e-07 (-절편에 대한 -3.4)을 얻습니다. "0"으로 나열된 95 % CI; 이것은 기술적으로 "제로가 아님"이지만 프로그램이보고하는 것처럼 0에 가깝습니다 ...

분산 성분에 대한 널 분포는 0에서 점 질량 ( '스파이크')과 0에서 떨어진 카이 제곱 분포의 혼합이라는 것은 잘 알려져 있고 이론적으로 입증 가능합니다 (예 : Stram and Lee Biometrics 1994). 의심 할 여지없이 (그러나 입증 된 / 잘 알려진 것인지 모르겠 음), 분산 성분 추정값의 샘플링 분포는 실제 값이 0 이 아닌 경우에도 종종 0에서 급증합니다 ( 예 : http://rpubs.com/ bbolker / 4187 예 또는 ?bootMer페이지 의 마지막 예 :

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

여기에 이미지 설명을 입력하십시오


2
+1. 또 다른 좋은 대답은 자매 스레드에 있습니다 : stats.stackexchange.com/a/34979 (향후 독자를 위해이 링크를 남겨두고 있습니다).
아메바는 모니카 주립대 모니카

13

문제가 없다고 생각합니다. 모델 결과에서 얻은 교훈은 대상 성능에 "분명히"변동이 있지만이 대상 변동의 정도는 잔차 분산 항만으로 완전히 또는 사실상 충분히 설명 할 수 있다는 것입니다. 관찰 된 모든 변이를 ​​설명하기 위해 추가적인 피험자 레벨 랜덤 효과를 추가 할 수있는 추가 피험자 레벨 변이가 충분하지 않습니다.

이런 식으로 생각하십시오. 동일한 패러다임에서 실험 데이터를 시뮬레이션한다고 상상해보십시오. 우리는 시험마다 잔차 변동이 있지만 주제 수준 변동이 0이 없도록 매개 변수를 설정했습니다. 이제이 매개 변수 세트에서 데이터를 시뮬레이션 할 때마다 주제의 성능이 정확히 동일하지 않다는 것을 알 수 있습니다. 일부는 낮은 점수로, 일부는 높은 점수로 끝납니다. 그러나 이것은 모두 시험 수준의 잔차로 인한 것입니다. 우리는 (시뮬레이션 매개 변수를 결정했기 때문에) 실제로 주제 수준의 변화가 없다는 것을 "알고"있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.