예측에 임의 효과를 포함시키지 않고 혼합 효과 모델에서 예측하는 이유는 무엇입니까?


10

이것은 개념적 질문이지만, 내가 사용할 R때의 패키지를 참조 할 것입니다 R. 목표가 예측 목적으로 선형 모형을 적합시킨 다음 임의 효과를 사용할 수없는 위치를 예측하는 경우 혼합 효과 모형을 사용하는 이점이 있습니까? 아니면 고정 효과 모형을 대신 사용해야합니까?

예를 들어, 다른 정보와 함께 체중 대 신장에 대한 데이터가 있고를 사용하여 다음 모델을 작성하는 lme4경우 주제는 레벨 ( ) 의 요인입니다 .nn=no.samples

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

그런 다음 새로운 신장 및 연령 데이터를 사용하여 모델에서 체중을 예측할 수 있기를 원합니다. 원래 데이터의 개체 별 편차는 모델에서 캡처되지만 예측에이 정보를 사용할 수 있습니까? 새로운 신장 및 연령 데이터가 있고 체중을 예측하고 싶다면 다음과 같이 할 수 있습니다.

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

이 사용 predict.merMod하고에 (신규) 주제에 대한 열을 포함 newdf하거나에 설정할 수 re.form =~0있습니다. 첫 번째 경우, '새로운'주체 인자로 모델이 무엇을하는지 명확하지 않으며, 두 번째 경우, 모델에서 포착 된 개체 별 분산이 예측을 위해 단순히 무시 (평균 초과)됩니까?

어느 경우 든 고정 효과 선형 모델이 더 적합 할 것 같습니다. 실제로, 내 이해가 정확하다면, 랜덤 효과가 예측에 사용되지 않으면 고정 효과 모델은 혼합 모델과 동일한 값을 예측해야합니다. 이 경우입니까? 에서 R그 예를 들어,되지 않습니다 :

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

다른 결과를 얻습니다.

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age



1
추정치에 포함되지 않은 새로운 그룹을 예측하고 싶을 수도 있습니다.
kjetil b halvorsen

예, 그러나이 경우 혼합 효과 모델을 사용해야하는 이유는 무엇입니까? 예측에서 랜덤 효과를 무시하면 고정 효과 모델이 제공하지 않는 것은 무엇입니까?
tribalsoul

1
오류 구조의 더 나은 (더 정확한) 모델을 가지고 있기 때문에 글쎄, 더 나은 추정량을 줄 수도
할보 르센 kjetil B

답변:


5

간단한 사고 실험 : 출생 후 5 명의 영아의 체중과 키를 측정했습니다. 그리고 당신은 2 년 후에 같은 아기에게서 다시 측정했습니다. 한편, 거의 매주 딸의 몸무게와 키를 측정하여 100 쌍의 값을 얻었습니다. 혼합 효과 모델을 사용하면 문제가 없습니다. 고정 효과 모델을 사용하는 경우 딸의 측정 값에 과도한 가중치를 적용하고 딸의 데이터 만 사용하는 경우 거의 동일한 모델에 적합하게 될 수 있습니다. 따라서 반복 측정 또는 불확실성 구조를 정확하게 모델링하는 유추뿐만 아니라 예측도 중요합니다. 일반적으로 혼합 효과 모델과 고정 효과 모델 (위반 된 가정 포함)에서 동일한 예측을 얻지 못합니다.

그리고 newdf에 (신규) 과목에 대한 열을 포함시킬 수 있습니다

원본 (훈련) 데이터의 일부가 아닌 주제는 예측할 수 없습니다. 다시 한 번 생각 실험 : 새로운 주제는 비만입니다. 모형이 모형이 랜덤 효과 분포의 상단에 있다는 것을 어떻게 알 수 있습니까?

모형에서 포착 된 개체 별 분산이 예측을 위해 단순히 무시 (평균 초과)됩니까?

내가 당신을 올바르게 이해한다면 그렇습니다. 모형은 모집단에 대한 예상 값의 추정치를 제공합니다 (이 추정치는 여전히 원래 주제에 대한 조건 임).


1
명확한 설명과 예를 들어 주셔서 감사합니다.이 모든 것이 의미가 있습니다. 그러나 당신이 말하는 곳 You can't predict for subjects which were not part of the original (training) data; re.form=~0인구 예측 값을 설정 하고 예측 하지 않아서 그렇게 할 수 있습니까? 물론, 모델은 예측에 주제별 정보를 사용하지 않지만 혼합 효과 모델의 추정치가 주제별 변동이있는 동등한 고정 효과 모델의 추정치보다 여전히 정확하다고 말할 수 있습니다. 무시 했습니까?
tribalsoul

1
고정 모델은 해당 가정이 위반되므로 적용 할 수 없습니다. 종속성 구조가 포함 된 모델을 사용해야합니다. re.form=~0새로운 주제에 대해 할 수있는 최선의 인구 수준 예측을 제공합니다.
Roland

glmmLasso R 에서 패키지를 사용할 때도 같은 질문이있었습니다. 패키지 작성자 인 Andreas Groll은 glmmLasso 프로 시저가 새로운 주제에 대한 예측을하기 위해 고정 된 효과를 사용하고 다음 시간에 기존 주제에 대해 고정 된 + 무작위 효과를 사용한다고 언급했습니다.
RobertF
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.