트윈 스터디 데이터를 사용한 선형 혼합 효과 모델링


14

번째 패밀리의 번째 형제에서 측정 한 응답 변수 있다고 가정합니다. 또한, 일부 행동 데이터 는 각 과목에서 동시에 수집되었습니다. 다음 선형 혼합 효과 모델로 상황을 분석하려고합니다.yijjixij

yij=α0+α1xij+δ1ixij+εij

여기서 및 은 각각 고정 절편 및 기울기이고, 는 임의 기울기이며 는 잔차입니다.α0α1δ1iεij

랜덤 효과 및 잔차 대한 가정은 다음과 같습니다 (각 제품군에 두 명의 형제가 있다고 가정)δ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

여기서 는 알 수없는 분산 모수이고 분산 공분산 구조 은 2 x 2 대칭 행렬 형태입니다. Rτ2R

(r12r122r122r22)

두 형제 사이의 상관 관계를 모델링합니다.

  1. 이 형제 연구에 적합한 모델입니까?

  2. 데이터는 약간 복잡합니다. 50 가구 중 90 %가 디지 코틱 (DZ) 쌍둥이입니다. 나머지 가족들에게는

    1. 두 사람은 형제가 하나뿐입니다.
    2. 두 개는 하나의 DZ 쌍과 하나의 형제가 있습니다. 과
    3. 두 개에는 하나의 DZ 쌍과 두 개의 추가 형제가 있습니다.


    나는 lmeR 패키지 nlme가 누락되거나 불균형 한 상황에서 (1)을 쉽게 처리 할 수 있다고 생각 합니다. 내 문제는 (2)와 (3)을 어떻게 다루는가? 내가 생각할 수있는 한 가지 가능성은 (2)와 (3)에있는 네 가족을 각각 두 개로 나누어서 각 하위 가족이 하나 또는 두 개의 형제를 갖도록 위의 모델을 계속 적용 할 수 있도록하는 것입니다. 괜찮습니까? 다른 옵션은 (2)와 (3)에서 여분의 한 두 형제에서 데이터를 버리는 것입니다. 더 나은 접근 방법이 있습니까?

  3. 잔차 분산 공분산 행렬 에 값 lme을 고정시킬 수있는 것으로 보입니다 ( 예 : = 0.5). 상관 관계 구조를 적용하는 것이 합리적입니까, 아니면 데이터를 기반으로 간단하게 추정해야합니까?R r 2 12rRr122


1
는 무엇을 의미합니까? xj
매크로

@ 매크로 : 그것을 발견해 주셔서 감사합니다. 방금 가 각 형제의 설명 변수, 행동 측정 값 임을 나타내도록 OP를 수정했습니다 . xij
bluepole

1
매우 흥미로운 질문과 응용 프로그램. 나는 뭔가를 놓칠 수 있지만이 모델은 매개 변수가 넘친 것 같습니다. 상관 된 오류 는 효과적으로 "비공유"구성 요소와 "공유"구성 요소로 고려 될 수 있으며 후자는 와 동일한 기능을 . 당신도 삭제해야합니다 의 확인 의 IID 오류, 또는 같은 제약 조건을 부과 식별 가능성을 위해 - 당신이 목적에 환경 적 / 유전 적 구성 요소를 분리하는 것으로하고있다 형제 상관 관계? ϵi1,ϵi2δ0iδ0iϵr122=.5
매크로

@ 매크로 : 맞습니다 : 가 필요하지 않습니다. 이것을 지적 해 주셔서 감사합니다! 이러한 중복성에 대해 이상하게 불평하지 않습니다. δ0ilme
bluepole

이 과도하게 매개 변수화 된 모델로 작업하고 있습니까 (질문의 일부는 편집되지 않았습니다)?
매크로

답변:


10

더미 변수를 사용하고 해당 더미 변수에 임의의 기울기를 포함하여 통합 모델에 트윈 및 비트윈을 포함 할 수 있습니다. 모든 가족에는 쌍둥이가 한 세트 이상 있기 때문에 비교적 간단합니다.

하자 형제의 경우 가족은 쌍둥이이고, 그렇지 않으면 0. 쌍둥이와 일반 형제의 경우 임의의 기울기가 다르기를 원한다고 가정합니다. 그렇지 않은 경우 아래 모델에 항을 포함시키지 마십시오 .Aij=1jiηi3

그런 다음 모델을 맞추십시오.

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • α0,α1 은 고정 된 효과입니다.

  • ηi0 은 '기준선'형제 랜덤 효과이고 은 쌍둥이가 일반 형제 자매보다 유사 할 수있는 추가 무작위 효과입니다. 해당하는 랜덤 효과 분산의 크기는 유사한 형제가 얼마나 많은지, 일반 형제보다 더 많은 쌍둥이가 얼마나 많은지를 나타냅니다. 트윈 및 비트윈 상관은이 모델에 의해 특성화됩니다. 트윈 상관은 랜덤 효과를 적절히 합산하여 계산됩니다 (플러그인 ).ηi1Aij=1

  • ηi2 및 은 유사한 역할을하며 의 임의의 기울기 역할ηi3xij

  • εij 는 iid 오류 용어입니다. 상관 잔차 오류가 아닌 임의의 가로 채기 방식으로 모델을 약간 다르게 작성했습니다.

R패키지를 사용하여 모델을 맞출 수 있습니다 lme4. 종속 변수 아래 코드 인 y더미 변수이고, A예측기는, x더미 변수의 곱, 상기 예측기는 AxfamID가족에 대한 식별 번호이다. 데이터는 D이러한 변수를 열로 사용 하여 데이터 프레임에 저장되어 있다고 가정합니다 .

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

을 입력하여 랜덤 효과 변수 및 고정 효과 추정값을 볼 수 있습니다 summary(g). 이 모델을 사용하면 임의 효과를 서로 상관시킬 수 있습니다.

많은 경우에 무작위 효과 사이의 독립성을 가정하는 것이 더 합리적이거나 이해하기 쉬울 수 있습니다 (예 :이 가정은 종종 유전자 대 환경 가족 상관 관계를 분해하기 위해 만들어 짐).

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 

이것은 정말 좋은 해결책이며, 나는 그것을 좋아합니다! 곧 시도해 볼 것입니다 ... 감사합니다!
bluepole

천만에요. 이 솔루션이 도움이 되었으면 답변을 고려해보십시오. :)
Macro

두 가지 문제 : 1) 대부분의 피험자가 쌍성 쌍둥이이기 때문에, 귀하의 접근 방식은 DZ 쌍둥이 쌍 사이의 상관 관계를 모델링하지 않는 것 같습니다. 2) 4 명의 가족 만이 남매가 있습니다. 나는 그 4 가족만을 근거로 형제 자매에 대한 무작위 효과를 추정하기가 어렵다고 걱정한다. DZ 트윈 페어와 다른 형제 간의 차이가 상대적으로 작기 때문에 (주로 환경 적이며 유전 적이 지 않음) 쌍둥이와 형제의 미묘한 차이를 무시하고 모델에서와 같이 임의의 형제 자매를 쌍둥이로 취급 할 수 있습니다. 또는 내 OP에서와 같이 상관 잔차가 있습니다.
bluepole

이 접근법은 쌍둥이 간의 상관 관계를 모델링합니다. 예를 들어 예측 변수 값이 0 인 경우 쌍둥이 간의 상관 관계는 여기서 는 의 분산입니다. 및 은 오차항의 분산입니다. 예측 변수 값이 0이 아닌 경우이 식에는 다른 두 랜덤 효과의 분산도 포함됩니다.
σ02+σ12σ02+σ12+σε2
σ02,σ12ηi0,ηi1σε2
매크로

트윈이 아닌 거의 없기 때문에 및 의 분산은 추정하기 어려울 것입니다. 당신은 그것들을 빠져 나갈 수 있지만, 내가 제안했지만 모델의 간결함을 사용하여 아무것도 잃지 않습니다. 그렇다면, 쌍둥이가 아닌 형제 자매가 독립적이라고 가정하는 것이 효과적입니다. 그러나 여전히 관측치를 사용하여 평균 모수를 추정 할 수 있습니다 (예 : 모형 피팅에서 제외). 또는 말했듯이 일반 형제가 쌍둥이와 같은 것처럼 행동 할 수 있으므로 전혀 코딩을 할 필요가 없습니다. ηi0ηi2
매크로
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.