GEE : 적절한 작업 상관 관계 구조 선택


19

나는 코호트 연구 (로그 링크와 함께 포아송 회귀를 사용하여 상대 위험을 추정)를 제대로 분석하기 위해 GEE를 이해하려고 노력하는 역학자입니다. "작업 상관 관계"에 대해 몇 가지 질문이 있습니다.

(1) 같은 개인에서 측정을 반복 한 경우, 교환 가능한 구조를 취하는 것이 가장 합리적입니까? (또는 측정 값이 추세를 나타내는 경우 자동 회귀)? 독립성은 어떻습니까? 동일한 개인의 측정에 대해 독립성을 가정 할 수있는 경우가 있습니까?

(2) 데이터를 조사하여 적절한 구조를 평가하는 (합리적으로 간단한) 방법이 있습니까?

(3) 독립 구조를 선택할 때 간단한 포아송 회귀를 실행할 때 (R, 함수 glm()geeglm()패키지 사용 geepack) 와 동일한 점 추정치 (그러나 표준 오류는 낮음)를 얻습니다 . 왜 이런 일이 발생합니까? GEE를 사용하면 모집단 평균 모델 (주제별과 달리)을 추정하므로 선형 회귀 분석의 경우에만 동일한 점 추정치를 얻어야합니다.

(4) 코호트가 여러 위치 사이트에 있지만 (개인당 한 번의 측정) 독립 또는 교환 가능한 작업 상관 관계를 선택해야하는 이유는 무엇입니까? 각 사이트의 개인은 여전히 ​​서로 독립적입니다. 예를 들어, 주제별 모델의 경우 사이트를 임의의 효과로 지정합니다. 그러나 GEE를 사용하면 독립성과 교환이 서로 다른 추정치를 제공하므로 기본 가정의 측면에서 어느 것이 더 나은지 잘 모르겠습니다.

(5) GEE는 2 단계 계층 적 클러스터링, 즉 개인마다 반복되는 측정 값을 가진 다중 사이트 코호트를 처리 할 수 ​​있습니까? 예인 경우, 클러스터링 변수로 무엇을 지정 geeglm()해야하며, 예를 들어 첫 번째 수준 (사이트)에 대해 "독립성", 두 번째 수준에 대해 "교환 가능"또는 "자동 회귀"라고 가정하는 경우 작업 상관 관계는 무엇입니까 (개별)?

나는 이것들이 꽤 몇 가지 질문이라는 것을 이해하고, 그중 일부는 상당히 기본적이지만 여전히 나 (그리고 다른 초보자도) 이해하기가 매우 어렵습니다. 그래서 어떤 도움이라도 진심으로 감사하며 이것을 보여주기 위해 현상금을 시작했습니다.

답변:


12
  1. 반드시 그런 것은 아닙니다. 소규모 군집, 불균형 한 설계 및 불완전한 클러스터 내 혼란스러운 조정으로 인해 교환 가능한 상관 관계는 독립 GEE보다 비효율적이고 편향 될 수 있습니다. 이러한 가정은 다소 강력 할 수 있습니다. 그러나 이러한 가정이 충족되면 교환 가능한 제품을보다 효율적으로 추론 할 수 있습니다. AR-1 상관 관계 구조가 의미가있을 때 시간을 균형있게 측정하는 것이 일반적이지 않기 때문에 인스턴스를 찾지 못했습니다 (인간 대상 데이터로 작업).

  2. 상관 관계 탐색은 좋으며 데이터 분석에서 수행해야합니다. 그러나 실제로 의사 결정을 안내 해서는 안됩니다 . 버로 그램 및 로렐로 그램을 사용하여 종단 및 패널 연구에서 상관 관계를 시각화 할 수 있습니다. 클러스터 내 상관 관계는 군집 내 상관 관계 정도를 잘 측정하는 것입니다.

  3. 혼합 모형과 달리 GEE의 상관 구조는 한계 모수 추정치 (GEE로 추정)에 영향을 미치지 않습니다 . 그래도 표준 오류 추정에 영향을 미칩니다. 이것은 링크 기능과 무관합니다. GEE의 링크 기능은 한계 모델을위한 것입니다.

  4. 사이트는 입 안의 치아 또는 학군 내 학생과 같이 측정되지 않은 변형의 원인이 될 수 있습니다. 충치 나 지역 사회 교육 기금에 대한 유전 적 성향과 같은 이러한 데이터에는 군집 수준의 혼란자가있을 수 있으므로 교환 가능한 상관 관계 구조를 사용하면 더 나은 표준 오류 추정치를 얻을 수 있습니다.

  5. GEE에서 한계 효과의 계산은 중첩되지 않았지만 수행 할 수있는 경우에는 복잡 합니다 . 중첩은 쉽고, 말한대로 수행합니다.


중첩 된 클러스터링의 경우 최상위 클러스터 변수를 선택하면됩니다.
Theodore Lytras

아니요, 3 단계 EM 알고리즘을 사용하여 계층적인 2 단계 교환 가능한 상관 관계 구조를 만들고 상관 관계에 대한 두 개의 개별 상관 관계 매개 변수를 일관되게 추정 할 수 있습니다. 그렇게하면 지역 사회의 아이들이 서로 연관되어 있지만 가정 내의 아이들과는 상관이 없다는 것을 알 수 있습니다.
AdamO

죄송합니다. 이해가되지 않습니다. 가급적 R 또는 Stata의 코드를 알려 주시겠습니까? 도움이 될 것 같아요.
Theodore Lytras

1
@TheodoreLytras 죄송합니다. 착각했습니다. 이전 어설 션이 정확합니다. 필자가 링크 한 바로 그 논문에서 "또한 여러 군집이 완벽하게 중첩 된 경우 최상위 군집의 GEE 군집은 샌드위치 분산 추정기를 통한 다단계 상관 구조를 설명합니다."
AdamO

1
어쩌면 다른 의미가 있지만 "혼합 모델과 달리 GEE의 상관 구조는 한계 모수 추정치에 영향을 미치지 않습니다"라고 말하면 이것이 사실이 아니라고 생각합니다. 최소한 다른 작업 상관 행렬을 선택하여 계수가 변경되지 않는 경우에는 이런 일이 발생하지 않습니다. 상관 행렬은 가중치 행렬에서 작동하며 공분산 행렬과 계수에 영향을줍니다.
Nick

6

(1) 더 멀리 떨어진 측정치가 서로 밀접하게 측정 된 것보다 상관 관계가 더 낮을 것으로 예상하기 때문에 일종의 자기 회귀 구조가 필요할 것입니다. 교환 가능은 모두 동등하게 상관되어 있다고 가정합니다. 그러나 다른 모든 것과 마찬가지로 의존합니다.

(2) 이런 종류의 결정은 데이터가 어떻게 보이는지 보지 않고 데이터가 어떻게 생성되었는지에 대한 생각으로 귀결된다고 생각합니다.

(4) 그것은 달려 있습니다. 예를 들어, 학교에 내포 된 아이들은 대부분의 경우 독립적으로 취급되어서는 안됩니다. 사회 패턴 등으로 인해 특정 학교의 어린이에 대해 알고 있다면 학교의 다른 어린이에 대해 조금 알고있을 것입니다. 한 번은 GEE를 사용하여 참가자들이 이웃에 중첩 된 출생 코호트에서 다양한 사회적, 경제적 지표와 비만 유병률 간의 관계를 살펴 보았습니다. 교환 가능한 구조를 사용했습니다. 여기 에서 논문을 찾을 수 있으며 epi 저널의 2 개를 포함하여 일부 참고 문헌을 확인할 수 있습니다 .

(5) 분명히 그렇습니다 (예 : 예 참조 ).하지만이 작업을 수행하는 R 사양을 도울 수 없습니다.

Zeger SL, Liang KY, Albert PS. 종단 데이터에 대한 모델 : 일반화 된 추정 방정식 접근법. 생체 인식. 1988; 44 : 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. GEE 또는 GEE와의 거리 : 이웃과 건강 사이의 연관성을 추정하기위한 추정 기능과 가능성 기반 방법 비교. 역학. 2009 년

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. 일반화 된 추정 방정식을 사용하여 상관 된 데이터의 통계 분석 : 방향. J Epidemiol입니다. 2003; 157 : 364.


이것은 실제로 도움이되지만 클러스터링 자체가 관측치 사이의 유사성을 암시하기 때문에 왜 누군가가 독립 구조를 사용하는지 궁금해합니다. 그러나 나는 학교의 경우 유사성이 다른 학교 와 관련이 있으며 각 학생 내에서 독립적 이라는 인상을 받고 있습니다. 그래서 나는 아직도 그것에 대해 명확하지 않습니다.
Theodore Lytras

예, 표본 및 하위 모델을 단일 학교로 제한 한 경우 걱정할 필요가 없습니다. 이 경우 오류가 iid라고 가정하는 것이 더 타당합니다. 그러나 일단 다른 학교의 아이들을 동일한 샘플 / 모델로 결합하기 시작하면, 모델에서 학교를 설명하지 않는 한, 즉 학교에서 조건부 오류가 iid로 간주되지 않는 한 그 가정은 열악해진다.
DL Dahly

또한 샘플 크기, 반복 측정 횟수 및 타이밍, 클러스터 수 등에 관한 세부 정보를 제공 할 수 있다면 사람들이 더 도움이 될 수 있습니다.
DL Dahly

2
@DLDahly (1)의 요점은 내가 생물 통계 패널 분석에서 종종 발견하는 것이 아닙니다. AR-N 상관 관계 구조에 대한 가정 중 하나는, 그들 사이에 충분한 시간이 주어지면, 동일한 개인에 대한 두 개의 측정치가 서로 다른 개인들에 대한 두 개의 측정치와 상관 관계가 없다는 것입니다. 그러나 근본적인 클러스터 간 교란 자들은 종종 시간에 따라 변하는 공변량 (유전자 마커와 같은)이 아니며, 그렇지 않으면 평가하기가 매우 어렵다고 가정합니다. 로렐로 그램은 시작하기에 아주 좋은 곳입니다.
AdamO

1

(0) 일반적인 의견 : 교차 검증 된 대부분의 모델은 너무 복잡합니다. 가능한 경우 단순화하십시오. 결과를 비교하기 위해 GEE 및 혼합 모델을 사용하여 모델링 할 가치가있는 경우가 많습니다.
(1) 그렇습니다. 교환 가능을 선택하십시오. 나의 명백한 대답은 GEE의 가장 널리 알려진 이점, 즉 추정에 대한 추정의 회복력에 근거한 것이다.
해당 분야의 연구를 살펴보면 exch가 기본 옵션임을 알 수 있습니다. 그것은 그것이 최고라는 것을 의미하지는 않지만 가장 먼저 고려해야 할 것입니다. 데이터에 대한 자세한 지식없이 exch에게 조언하는 것이 가장 좋습니다.
(2) 예. "QIC"와 같은 데이터 기반 접근 방식이 있습니다. 이것은 Stata 예이지만 실제로는 거의 사용되지 않지만 합리적인 옵션으로 널리 인정됩니다.http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) 점 추정치는 정확히 같지는 않지만 (dep 상관 관계 구조를 사용하지 않는 한) 일반적으로 상당히 가깝습니다. 간단한 / gee / 혼합 효과 모델 추정값을 비교하여 많은 정보를 얻을 수 있습니다 ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) 대부분의 교과서에는 이 두. 독립적 인 상관 관계 구조의 경우 기본적으로 강력한 SE로 포아송 모델을 실행합니다. 따라서 추정치는 정확히 같습니다. SE는 일반적으로 더 큽니다. 그러나 때로는 탄탄한 SE는 더 작습니다 (즉, 생명 : 관심있는 경우 통증없이 설명을 제공하는 Google).
(4) 위의 (1) 및 (2)를 참조하십시오.
(5) 아니오. 또는 더 잘 말하면, 충분한 노력을 기울이면 무엇이든 할 수 있지만 그만한 가치는 거의 없습니다.


0

구조를 모르고 결과가 혼란 스러울 수 있기 때문에 gee와 함께 잘못된 접근법을 사용하여 수행중인 작업을 수행하고 있습니다. Jamie Robinson에게 문의하십시오. 오래 사용해야합니다. TMLE (mark van der laan) 또는 iptw 가중치를 가진 gee 일 수 있습니다. 상관 관계를 설명하지 않으면 분산이 과소 평가됩니다. 반복되는 모든 측정 값이 100 % 상관 관계가 있다고 생각하면 관측치가 줄어들고 (실제로 n 개의 대상에 대해 n 만 가능) n이 작을수록 분산이 높아집니다.


비 생존 유형의 결과가있는 경우 성향 점수를 올바르게받는다고 가정 할 때 편견없는 추정치에 대해 제안 된대로 독립적 인 corr 구조 및 iptw 가중치와 함께 gee 접근법을 사용할 수 있습니다. TMLE는 앙상블 학습을 사용하여 성향 점수 및 순차적 회귀를 예측하고 여전히 효율적인 추론을 얻을 수 있기 때문에 생존 여부에 관계없이 거의 모든 것이 가장 좋습니다. 접근 방식은 반드시 편향되며 잘못된 추론을 제공하고 표본 크기가 더 커집니다. 효과가 없으면 잘못된 결과를 정확하게 찾아 낼 수 있습니다.
Jonathan Levy

더 자세하게 사용할 수 있습니다. 재니 로빈슨은 무엇입니까? van der Laan의 어떤 종이?
mdewey

@mdewey 죄송합니다. 오타가 Jamie Robins를 의미했습니다. Robins, hernan, Babette 2000 한계 구조 모델 및 인과 추론을 사용하십시오. 효과 수정 자로 msm을 수행하는 방법을 포함하여 비 생존 적 결과에 대한 훌륭한 방법입니다. 엎드려서, 목표 학습을 책을 참조하십시오. 내가 말했듯이, laan이 가장 좋지만 이해하는 데 더 많은 시간이 걸립니다. R 패키지 Ltmle은이 방법론을 수행하지만 학습하는 데 시간이 걸립니다.
Jonathan Levy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.