고정 효과와 임의 효과


10

저는 최근에 일반화 선형 혼합 모형에 대해 배우기 시작했고 R을 사용하여 그룹 구성원을 고정 또는 무작위 효과로 취급하는 데 어떤 차이점이 있는지 살펴 보았습니다. 특히, 나는 여기에서 논의 된 데이터 세트의 예를보고있다 :

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

이 튜토리얼에서 설명했듯이 Doctor ID의 효과는 훌륭하며 임의의 인터셉트가있는 혼합 모델이 더 나은 결과를 줄 것으로 기대했습니다. 그러나 두 방법의 AIC 값을 비교하면이 모델이 더 나빠집니다.

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

따라서 내 질문은 다음과 같습니다.

(1) 두 기능이 제공하는 AIC 값을 비교하는 것이 적절합니까? 그렇다면 고정 효과 모델이 더 나은 이유는 무엇입니까?

(2) 고정 또는 무작위 효과가 더 중요한지 식별하는 가장 좋은 방법은 무엇입니까 (즉, 의사로 인한 변동성이 환자 특성보다 더 중요하다는 것을 정량화하는 방법은 무엇입니까?

답변:


7

고정 효과 모델과 임의 효과 모델은 데이터에 대해 다른 질문을합니다. 그룹 레벨 더미 변수 세트를 지정하면 기본적으로 평균 반응에서 관찰되지 않은 모든 그룹 레벨 이질성을 제어하여 추정값이 단위 내의 변동성 만 반영하도록합니다. 랜덤 효과 모델은 메타포 퓰 레이션 (어떤 효과가 있는지)이 있고 표본이 해당 모집단의 많은 그림을 반영한다는 가정에서 시작합니다. 따라서 이기종 인터셉트에 대한 결과를 고정시키는 대신 데이터가 데이터가 추출 된 것으로 추정되는 분포 (일반적으로 정상)의 모수를 설명하는 데 사용됩니다.

고정 효과 모델은 보유한 데이터에 대한 추론을 수행하는 데 적합하고 무작위 효과 모델은 데이터가 무작위 표본 인 일부 대규모 모집단에 대해 추론을 시도하는 데 적합하다고 종종 말합니다.

고정 효과 모델에 대해 배웠을 때 오류 구성 요소와 패널 데이터를 사용하여 동기를 부여했습니다. 주어진 단위를 여러 번 관찰하고 시간 에서 무작위 처리를합니다 .t

yit=αi+βTit+ϵit

오류 용어를 시간에 따라 달라지는 오류 용어의 구성 요소와 그렇지 않은 구성 요소로 나눌 수 있습니다.

yit=αi+βTit+ei+uit

이제 양쪽에서 그룹 별 평균을 뺍니다.

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

첨자 화되지 않은 것은 기본 뺄셈에 의한 방정식에서 나온 것입니다. 여기에는 시간이 변하지 않는 오류 용어의 구성 요소가 포함됩니다. 따라서 시간 불변 이질성으로 추정값을 혼동하지 않습니다. t

이것은 랜덤 효과 모델에서는 작동하지 않습니다. 인덱스가 아닌 변수는 해당 변환 ( "내부"변환)에 의해 영향을받지 않습니다. 따라서 그룹 내에서 변하지 않는 것들의 영향에 대해 추론 할 수 있습니다. 현실에서는 그러한 것들이 중요합니다. 따라서 랜덤 효과는 "데이터 모델링"에 적합하지만 고정 효과 모델은 특정 항의 편향 추정치에 가까워지는 데 좋습니다. 랜덤 효과 모델을 사용하면 완전히 제거했다고 주장 할 수 없습니다 .Itei

이 예에서 시간은 그룹화 변수입니다. 귀하의 예에서는 DID입니다. (즉 : 일반화)


1

1) 두 모델이 아닌 비교하는 것이 적절합니다. 당신은 비교하고 싶습니다 :

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

anova 로이 작업을 수행 할 수 있습니다.

anova(GLM, GLMM)

(이것이 다른 R 객체 일 수 있으므로 glmand glmer결과 와 함께 작동하는지 확실하지 않습니다 . lmeand와 비슷한 리턴 객체를 갖는 두 개의 함수를 사용해야 할 수도 있습니다gls 하거나 anova를 직접 수행해야 할 수도 있습니다.)

anova는 무작위 의사 효과의 추가가 유의한지 확인하기 위해 로그 우도 비율 테스트를 수행합니다. 랜덤 닥터 효과가 0이라는 귀무 가설을 검정하고 분산에 대한 모수 공간의 경계에 0이 있다는 의미 때문에 유의성을 선언하기 전에 p- 값을 2로 나눠야합니다 (실제 분포는 이 테스트는 과 분포 의 혼합 이지만이 시점에서 내 자신의 무지의 경계에 가깝습니다). χ 2 1χ02χ12

저에게 중첩 모델 구축 및 가설 테스트 프로세스를 이해하는 데 가장 적합한 책은 West, Welsh 및 Galecki (2007) 선형 혼합 모델 : 실용 가이드 입니다. 그들은 모든 것을 단계별로 겪습니다.

2) 환자 당 여러 개의 관찰이있는 경우 환자에게 임의의 효과를 추가 할 수도 있습니다. 그런 다음 인내심과 의사의 상대적 중요성을 테스트하기 위해 환자의 예측 효과 대 의사의 예측 효과를 볼 수 있습니다. 각각에 대한 랜덤 효과 항은 관심있는 질문 인 경우 환자와 의사 간의 차이를 정량화합니다.

(내가 틀렸다면 누군가 나를 수정하십시오!)


나는 확실히 그것을 감각이 할 수 아니에요 DID으로 모두 고정 효과 2 차 모델에서 임의의 절편. 또한, 1 차 모델에서 고정 효과로 사용한다는 것은이 2 개의 선택 DID이 포함되어야하는지 여부가 아니라 의 효과에 대해 생각할 수있는 방법이라는 것을 의미합니다 . 다른 쪽지에, 나는 당신이 아이템을 가지고 있음을 알았습니다 (2); (1) 어딘가에 항목이 있다는 의미입니까?
gung-Monica Monica 복원

당신은 절대적으로 맞습니다; 나는 OPD의 원래 glm 공식에서 출발했습니다.이 공식은 DID를 고정 효과로 사용해서는 안됩니다. 이제 DID를 임의 효과로 처리하여 모델에 값을 추가할지 여부를 선택할 수 있습니다.
Christopher Poile

1

모델은 매우 다릅니다. glm 모델은 모든 doctorID 효과가 추정되고 매개 변수 추정치가 할당 될 때 (널 모델에서) 이탈의 전체 감소를 ​​해결합니다. 물론 Age, Married 및 IL6은 두 모델에서 모두 동일한 Wald 통계를 가지고 있습니다. 내가 이해하는 것은 (고유 한 것은 아니지만) 혼합 모델은 doctorID를 성가신 요소 또는 계층으로 취급한다는 것입니다. 즉, 특정 상위 분포에서 도출 할 수없는 "효과"입니다. 혼합 모델을 사용하면 "의사-효과"에 대한 이해가 향상 될 것이라고 생각할 이유가 없습니다.

만약 당신이 Age, Married 또는 IL6의 영향에 관심이 있다면, 당신이 두 모델에 걸쳐 AIC를 비교하지 않고 동일한 모델링 구조 내에서 관심있는 공변량을 제거하여 AIC의 차이점을 비교할 것이라고 상상했을 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.