일반화 된 추정 방정식과 혼합 효과 모델을 언제 사용해야합니까?


63

나는 세로 데이터로 한동안 혼합 효과 모델을 아주 행복하게 사용했습니다. 나는 lmer에 AR 관계를 적용 할 수 있기를 바랍니다 (나는 이것을 할 수없는 것이 옳다고 생각합니까?)

방금 일반 추정 방정식 (GEE)을 보았으며 ME 모델보다 훨씬 더 많은 유연성을 제공하는 것 같습니다.

지나치게 일반적인 질문을 할 위험이있는 경우, 다른 작업에 더 적합한 조언이 있습니까? 나는 그것들을 비교하는 논문을 보았고 그것들은 다음과 같은 형식 인 경향이 있습니다.

"이 고도로 전문화 된 영역에서 X에는 GEE를 사용하지 말고 Y에는 ME 모델을 사용하지 마십시오."

더 일반적인 조언을 찾지 못했습니다. 누구든지 나를 밝힐 수 있습니까?

감사합니다!


1
"그들은 훨씬 더 융통성을 제공하는 것 같다"... 글쎄, GLMM을 사용할 때 종종 관심있는 조건부 접근과는 달리 GEE가 한계 분포에 적합하기 때문에 접근 방식이 다릅니다.
chl


그 참고 glmmPQL또한 AR 상관 관계 구조를 맞을 수
톰 Wenseleers

AR 관계 란 무엇입니까?
학습 통계 통계 예 :

@incodeveritas 회귀 공분산 구조
Tommyixi

답변:


56

공변량의 개체 평균 효과 대 개별 특정 효과를 알아 내려면 GEE를 사용하십시오. 이 두 가지는 선형 모델에서만 동일하지만 비선형 (예 : 물류)에서는 아닙니다. 이를 확인하려면 예를 들어 번째 주제 의 번째 관측치 인 ;jiYij

log(pij1pij)=μ+ηi

여기서 는 주제 대해 무작위 효과 이며 입니다.ηiN(0,σ2)ipij=P(Yij=1|ηi)

이 데이터에 대해 랜덤 효과 모델을 사용한 경우, 정규 분포가 평균적으로 분산 된 평균 0이 각 개인에 적용되어 개인별로 특정한다는 사실을 설명하는 의 추정치를 얻을 수 있습니다.μ

이러한 데이터에 GEE를 사용한 경우 모집단 평균 로그 확률을 추정 할 수 있습니다. 이 경우에는

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ일반적으로 입니다. 예를 들어, 이고 이면 입니다. 변환 된 (또는 연결된 ) 스케일 에서 랜덤 효과의 평균은 0이지만, 데이터의 원래 스케일에서 효과는 0이 아닙니다. 혼합 효과 로지스틱 회귀 모델에서 일부 데이터를 시뮬레이션하고 모집단 수준 평균을 절편의 역 로짓과 비교하면이 예와 같이 데이터가 같지 않음을 알 수 있습니다. 계수 해석의 차이는 GEE와 랜덤 효과 모델의 근본적인 차이 입니다.μ=1σ2=1ν.83

편집 : 일반적으로 예측 변수가없는 혼합 효과 모델은 다음과 같이 작성할 수 있습니다.

ψ(E(Yij|ηi))=μ+ηi

여기서 는 링크 함수입니다. 할때는 언제나ψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

모집단 평균 계수 (GEE)와 개별 특정 계수 (랜덤 효과 모델)간에 차이가 있습니다. 즉, 데이터를 변환하고 변환 된 스케일에 임의 효과를 통합 한 다음 다시 변환하여 평균이 변경됩니다. 선형 모형 (즉, )에서 동등성은 유지되므로 동등합니다.ψ(x)=x

편집 2 : 또한 GEE 모델에 의해 생성 된 "견고한"샌드위치 유형 표준 오류는 모델에 지정된 상관 관계 구조가 아닌 경우에도 유효한 점근 적 신뢰 구간을 제공합니다 (예 : 실제로 시간의 95 %를 커버 함). 옳은.

편집 3 : 데이터의 연관 구조를 이해하는 데 관심이 있다면 연관의 GEE 추정치가 비효율적이며 때로는 불일치합니다. 이것에 대한 참조를 보았지만 지금 배치 할 수는 없습니다.


3
(+1) 두 번째 편집에 대해서는 모형 기반 분산 추정기가 적은 수의 군집에서 더 잘 작동합니다 (또는 Jacknife 추정기를 사용할 수 있음). 참고로, 나는 항상 gbi.agrsci.dk/statistics/courses/phd07/material/Day10가리키며 , 여기에는 매우 멋진 강의 노트가 포함되어 있습니다 (통계 배경, GEE 대 GLMM 접근 방식 + R의 그림 비교) .
chl

와, 정말 좋은 답변입니다. 매우 감사합니다. 그것은 내가 찾던 것입니다. 그리고 링크에 대한 chl 덕분입니다. 둘 다 인터넷 +10
Chris Beeley

GEE는 또한 높은 수준의 효과가 방해 요소라고 가정하지 않습니까? 나에게 또 다른 중요한 차이점 인 것처럼 보인다. 만약 그 효과에 관심이 있다면 GEE는 그것을주지 않을 것이다. 또는 이러한 배포 가정을 작성하는 것이 불편하다면 GEE가 바람직 할 것입니다.
robin.datadrivers

제공 @chl 링크는 죽었다 : / (나중에 6 년 가지 예상되고, 그렇지?)
Guilherme 마르테

@GuilhermeMarthe 잘 잡아라! 불행히도, 나는 다른 스레드 에서 동일한 재료에 연결했습니다 . 두 가지 옵션이 있습니다 : geepack R 패키지 (동일한 두 명의 저자가 개발)를 참조하거나 당분간 WayBack Machine 을 사용하십시오 .
chl

10

내 생각에 GEE는 베이지안 모델링을 사용하지 않고 전체 우도 솔루션을 사용할 수 없을 때 가장 유용합니다. 또한, GEE는 충분히 정확하기 위해 더 큰 표본 크기를 요구할 수 있으며, 무작위로 누락되지 않은 종 방향 데이터에 대해 매우 강력하지 않습니다. GEE는 무작위로 완전히 누락 된 것으로 가정하지만 우도 방법 (예 : 혼합 효과 모델 또는 일반화 된 최소 제곱)은 무작위로만 누락 된 것으로 가정합니다.


1

Fitzmaurice, Laird and Ware, Applied Longitudinal Analysis , John Wiley & Sons, 2011, 2 판, 11-16 장 에서 철저한 토론과 구체적인 예를 찾을 수 있습니다 .

예를 들어, 동반 웹 사이트 에서 데이터 세트 및 SAS / Stata / R 프로그램을 찾을 수 있습니다 .


2
이 책의 요점을 요약 해 주시겠습니까?
chl

2
나는 매크로가 이미 그것을 해냈다 고 말하고 싶습니다. ;-)이 책에서 Frank Harrell이 추가 한 것들 중에서 더 길고 더 자세한 토론, 분석적, 수치 적, 그래픽 적 예, 그리고 몇 가지 추가 요점을 찾을 수 있습니다. Gelman의 블로그를 볼 수도 있습니다 .
Sergio
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.