혼합 효과 모델을 언제 사용합니까?


11

선형 혼합 효과 모델은 그룹으로 수집 및 요약 된 데이터에 대한 선형 회귀 모델의 확장입니다. 주요 장점은 계수가 하나 이상의 그룹 변수와 관련하여 달라질 수 있다는 것입니다.

그러나 혼합 효과 모델을 사용할 때 어려움을 겪고 있습니까? 나는 극단적 인 경우 장난감 예제를 사용하여 내 질문을 정교하게 할 것입니다.

동물의 키와 몸무게를 모델링하고 종을 그룹화 변수로 사용한다고 가정 해 봅시다.

  • 다른 그룹 / 종이 실제로 다른 경우. 개와 코끼리를 말합니다. 혼합 효과 모델을 사용할 필요가 없다고 생각합니다. 각 그룹마다 모델을 만들어야합니다.

  • 다른 그룹 / 종이 실제로 비슷한 경우. 여성 개와 남성 개를 말한다. 모델에서 성별을 범주 형 변수로 사용하고 싶을 것 같습니다.

그렇다면 중간 경우 혼합 효과 모델을 사용해야한다고 생각합니까? 그룹이 고양이, 개, 토끼라고 말하면 비슷한 크기의 동물이지만 다릅니다.

언제 혼합 효과 모델을 사용할지 제안하는 공식적인 주장이 있습니까?

  1. 각 그룹의 건물 모델
  2. 혼합 효과 모델
  3. 회귀 분석에서 그룹을 범주 형 변수로 사용

내 시도 : 방법 1은 가장 "복잡한 모델"/ 자유도가 낮고 방법 3은 가장 "간단한 모델"/ 자유도입니다. 그리고 혼합 효과 모델은 중간에 있습니다. Bais Variance Trade Off에 따라 올바른 모델을 선택하기 위해 얼마나 많은 데이터와 얼마나 복잡한 데이터를 고려해야하는지 고려할 수 있습니다.


5
이것은이 포럼의 많은 스레드에서 논의됩니다. 일부를 찾으셨습니까? "범주 형 변수"를 사용한 옵션은 "고정 효과"(그룹화 변수)라고하는 반면 "혼합 모델 사용"은 "랜덤 효과"를 사용합니다. 그래서 당신이 묻는 것은 고정 사용 시간과 임의 효과 사용 시간입니다. 이 질문에 대한 다양한 의견이 있으며 CV에 대한 많은 토론을 찾을 수 있습니다. 나중에 일부 링크를 게시 할 수 있습니다.
amoeba

또한 "별도의 모델 작성"과 "범주 형 변수 사용"의 차이점은 명확하지 않습니다. activity ~ condition + species + condition*species-이것은 species범주 형 변수로 사용 되지만 activity ~ condition각 종에 대한 개별 회귀 분석과 완전히 동일합니다 .
amoeba

2
이 스레드를 확인하십시오 : stats.stackexchange.com/questions/120964/… , 귀하의 질문에 직접 답변하지는 않지만 귀하의 질문과 밀접한 관련이있는 토론을 제공합니다.
Tim

3
글쎄, 시작을 위해 stats.stackexchange.com/a/151800/28666 을 읽었 습니까?
amoeba

2
"다른 그룹 / 종이 실제로 다른 경우. 개와 코끼리를 말하십시오. 혼합 효과 모델을 사용할 필요가 없다고 생각합니다. 각 그룹에 대한 모델을 만들어야합니다." 이것은 다른 모든 기능 의 효과 가 종에 따라 다를 것으로 예상되는 경우에만 사실 입니다. 이것은 대부분의 상황에서 너무 자유로운 가정입니다.
Matthew Drury

답변:


8

연구원이나 데이터 분석가가 주관적인 선택이라는 뉘앙스가 있고 아마도 불만족스러운 대답을 할지도 모른다. 이 스레드의 다른 곳에서 언급했듯이 데이터에 "중첩 구조"가 있다고 말하는 것만으로는 충분하지 않습니다. 그러나 공평하게 말하면, 이것은 다중 레벨 모델을 사용하는시기를 설명하는 책의 수입니다. 예를 들어, Joop Hox의 책 Multilevel Analysis 를 책장에서 가져 와서 다음과 같은 정의를 제공합니다.

다단계 문제는 계층 구조를 가진 모집단과 관련이 있습니다.

아주 좋은 교과서에서도 초기 정의는 원형으로 보입니다. 나는 이것이 어떤 종류의 모델 (다단계 모델 포함)을 언제 사용해야하는지 결정하는 주관성 때문이라고 생각합니다.

West, Welch 및 Galecki의 Linear Mixed Models 라는 또 다른 책 은 이러한 모델이 다음과 같은 것이라고 말합니다.

잔차가 정규 분포를 따르지만 독립적이지 않거나 분산이 일정하지 않은 결과 변수. LMM을 사용하여 적절하게 분석 할 수있는 데이터 세트로 이어지는 연구 설계에는 (1) 교실 학생과 같은 군집 데이터를 사용한 연구 또는 산업 공정을위한 원료 배치와 같은 임의 블록을 사용한 실험 설계 및 (2)가 포함됩니다. 시간이 지남에 따라 또는 다른 조건에서 대상을 반복적으로 측정하는 종단 또는 반복 측정 연구.

R 의 Finch, Bolin 및 & Kelley 's Multilevel Modeling은 또한 iid 가정 및 상관 잔차를 위반하는 것에 대해 이야기합니다.

다단계 모델링의 맥락에서 특히 중요한 것은 표본 내 개별 관측치에 대해 독립적으로 분포 된 오차 항의 가정 (표준 회귀)입니다. 이 가정은 본질적으로 분석의 독립 변수가 고려되면 종속 변수에 대한 표본의 개체 간 관계가 없음을 의미합니다.

나는 관측치가 반드시 서로 독립적 일 필요는 없다고 믿을만한 근거가있을 때 다단계 모형이 의미가 있다고 믿는다. 이 비 독립성을 설명하는 "클러스터"가 무엇이든 모델링 할 수 있습니다.

명백한 예는 교실에있는 어린이들입니다. 그들은 모두 서로 상호 작용하여 시험 점수가 독립적이지 않을 수 있습니다. 한 학급에 다른 학급에서 다루지 않은 자료가 해당 학급에서 다루어 질 수있는 질문을하는 사람이 있다면 어떻게 될까요? 선생님이 다른 수업보다 일부 수업에 대해 더 깨어 있다면? 이 경우 데이터와 무관 한 데이터가있을 수 있습니다. 다단계 단어에서, 종속 변수의 일부 차이는 클러스터 (예 : 클래스)에 기인 할 수 있습니다.

개 대 코끼리의 예는 독립적이고 의존적 인 관심 변수에 달려 있다고 생각합니다. 예를 들어, 카페인이 활동 수준에 미치는 영향을 묻고 있다고 가정 해 봅시다. 동물원 곳곳에서 온 동물들은 무작위로 카페인 음료 나 통제 음료를 받도록 배정됩니다.

우리가 카페인에 관심이있는 연구원이라면, 카페인의 영향에 정말로 신경을 쓰므로 다단계 모델을 지정할 수 있습니다. 이 모델은 다음과 같이 지정됩니다.

activity ~ condition + (1+condition|species)

이 가설을 테스트 할 종이 많을 경우 특히 유용합니다. 그러나 연구원은 카페인의 종별 영향에 관심이있을 수 있습니다. 이 경우 종을 고정 효과로 지정할 수 있습니다.

activity ~ condition + species + condition*species

예를 들어 30 종이있어 다루기 어려운 2 x 30 디자인을 만드는 경우에는 분명히 문제가됩니다. 그러나 이러한 관계를 모델링하는 방법으로 창의력을 발휘할 수 있습니다.

예를 들어, 일부 연구자들은 다단계 모델링의 광범위한 사용을 주장하고 있습니다. Gelman, Hill, & Yajima (2012) 는 데이터의 구조가 본질적으로 계층 적이 지 않은 실험 연구에서도 다중 레벨 모델링이 다중 비교를위한 수정으로 사용될 수 있다고 주장합니다.

더 많은 구조를 가진 다중 비교를 모델링 할 때 더 어려운 문제가 발생합니다. 예를 들어, 5 개의 성과 측정, 3 가지 종류의 치료 및 2 개의 성별과 4 개의 인종 그룹으로 분류 된 하위 그룹이 있다고 가정합니다. 이 2 × 3 × 4 × 5 구조를 120 개의 교환 가능한 그룹으로 모델링하고 싶지 않습니다. 이처럼 복잡한 상황에서도 다중 레벨 모델링은 고전적인 다중 비교 절차를 대신해야한다고 생각합니다.

문제는 다양한 방식으로 모델링 될 수 있으며, 모호한 경우 여러 접근 방식이 매력적으로 보일 수 있습니다. 우리의 임무는 합리적이고 정보에 입각 한 접근 방식을 선택하고 투명하게하는 것입니다.


5

물론 각기 다른 그룹에 대한 모델을 만들 수는 있지만 아무 문제가 없습니다. 그러나 더 큰 표본 크기가 필요하고 여러 모델을 관리해야합니다.

혼합 모델을 사용하면 데이터를 함께 모으고 공유하므로 더 작은 샘플 크기가 필요합니다.

이를 통해 통계적 강도를 공유하고 있습니다. 여기서 아이디어는 한 그룹의 데이터에서 잘 추론 할 수있는 것이 다른 데이터에서 잘 추론 할 수없는 것을 도울 수 있다는 것입니다.

혼합 모델은 또한 과표 본 그룹이 부당하게 추론하는 것을 방지합니다.

내 요점은 근본적인 나중에 계층 구조를 모델링하려면 모델에 임의의 효과를 추가해야한다는 것입니다. 그렇지 않으면 모델 해석에 신경 쓰지 않으면 사용하지 않습니다.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

관련 토론을 제공합니다. 저자는 왜 개별 회귀 모델을 실행하고 싶지 않은지 논의했습니다.

여기에 이미지 설명을 입력하십시오


4

혼합 효과 모델에서는 임의의 (오류) 항을 모델에 추가하므로 고정 효과와 임의 효과를 "혼합"합니다. 따라서 혼합 효과 모델을 사용할시기를 고려해야하는 또 다른 방법은 "무작위 효과"가 무엇인지 살펴 보는 것입니다. 따라서 이전에 제공된 답변 외에도 Bates (2010)의 1.1 섹션 (예 : 2 페이지)의 "고정 된"효과와 "무작위"효과라는 용어의 차이점도 발견했습니다 .

공변량의 특정 수준과 관련된 매개 변수를 때때로 수준의 "효과"라고합니다. 공변량의 가능한 수준의 세트가 고정되고 재현 가능한 경우 고정-효과 매개 변수를 사용하여 공변량을 모델링합니다. 관찰 된 수준이 가능한 모든 수준에서 무작위 표본 을 나타내는 경우 모형에 임의 효과를 포함시킵니다. 고정 효과 매개 변수와 무작위 효과 사이에는 이러한 차이점에 대해 두 가지주의 할 사항이 있습니다. 첫째, 고정과 랜덤의 구별이 그와 관련된 효과의 속성보다 범주 형 공변량 수준의 속성이기 때문에 이름이 잘못되었습니다.

이 정의는 종종 국가 또는 교실과 같은 일부 계층 구조에 적용됩니다. 국가 또는 교실의 "무작위"샘플이 항상 있기 때문에 모든 가능한 국가 또는 교실 에서 데이터가 수집 된 것은 아닙니다 .

그러나 섹스는 고정되어 있습니다 (또는 최소한 고정 된 것으로 취급됩니다). 남성이나 여성이있는 경우 남은 성별 수준이 없습니다 (성별 예외가있을 수 있지만 대부분 무시됩니다).

또는 교육 수준을 말하십시오 : 사람들이 저, 중, 고 등 교육을 받는지 묻는다면, 남아있는 수준이 없으므로 가능한 모든 교육 수준의 "무작위"샘플을 취하지 않은 것입니다 (따라서 이것은 고정 된 효과입니다).


2
+1 왜 투표를하지 않습니까? 이는 랜덤 효과 모델링에 대한 존경받는 통계학 자의 말입니다. 다음 논평은 매우 간단하고 잘 정의되어 있습니다 ...
usεr11852

3

스터디 디자인을 기반 으로 개별 수준 또는 조건부 효과 에 대한 관측 추론 간의 상관 특성에 대한 합리적인 가정을 할 수있는 경우 혼합 모형을 사용 합니다. 혼합 모형을 사용하면 데이터 수집에서 자연적으로 발생하는 상관 관계 구조를 편리하게 표현할 수있는 임의 효과를 지정할 수 있습니다.

가장 일반적인 유형의 혼합 모형은 데이터 집합에서 식별 된 개체 군집 내에서 0- 평균 유한 분산 정규 분포를 갖는 공통 상수의 잠재 분포를 추정하는 랜덤 차단 모델입니다. 이 접근법은 관측 그룹 또는 군집에 공통이지만 잠재적으로 군집에 따라 수백 가지의 혼란스러운 요소를 설명합니다.

혼합 모형의 두 번째 일반적인 유형은 랜덤 절편 모델과 유사하게, 패널 연구 또는 클러스터 내의 0- 평균 유한 분산 정규 분포에서 비롯된 시간-예측 상호 작용의 잠재 분포를 추정하는 랜덤 슬로프 모델입니다. 전향 적으로 또는 종 방향으로 측정 된 관측치.

영형아르 자형(와이1,와이2)=ρ와이1,와이2영형아르 자형(와이,와이에스)=ρ|에스|와이,와이에스,에스그렇지 않으면 0입니다. 무작위 차단은 군집 내 관측치가 긍정적으로 연관되도록 강제하기 때문에 결과는 동일하지 않습니다. 이는 거의 항상 합리적인 가정입니다.

개별 수준 또는 조건부 효과는 모집단 수준 또는 한계 효과와 대조 될 수 있습니다. 한계 효과는 중재 또는 선별에 의한 집단의 효과를 나타냅니다. 예를 들어, 약물 남용 재활에 대한 준수를 높이기위한 중재는 다양한 조건으로 입원 한 환자 패널에서 3 개월 이상 출석을 볼 수 있습니다. 사용 기간은 환자마다 다를 수 있으며 중독성 경향과 회피율이 높은 참가자를 더 오래 사용함으로써 워크샵 준수 여부를 강력하게 예측합니다. 개인 수준의 분석에 따르면 중독이 오래 걸린 참가자가 중재를 받기 전에 참석하지 않았으며 중재를받은 후에도 계속 참석하지 않는다는 사실에도 불구하고 연구가 효과적이라는 것이 밝혀졌습니다.

한계 효과는 시간 또는 공간에서 군집 간의 동질성을 무시하기 때문에 정확한 추론이 적습니다. 그것들은 일반화 된 추정 방정식 또는 혼합 모형을 주 변화하여 추정 할 수 있습니다.


2
+1, 2 개의 답변을받을 수 있기를 바랍니다!. @Mark의 답변에 대한 나의 의견은 귀하의 답변에도 적용됩니다. "클러스터에서 관찰"을 정의하는 방법을 이해하도록 도와 주셨습니다
Haitao Du

2
@ hxd1011 연구 설계의 진술에서 엄격하게 나온다. 층화 된 샘플 또는 반복 측정을 가진 모든 디자인에는 독립적이지 않은 데이터가 있습니다. 통계 테스트의 경우에는 해당되지 않습니다. 랜덤 효과를보고하거나 최소한 검사하면 상관 범위를 이해하는 데 도움이 될 수 있습니다. ICC는 그러한 측정의 한 예입니다.
AdamO

0

데이터에 중첩 또는 계층 구조가있는 경우 혼합 효과를 사용해야합니다. 이는 동일한 그룹 / 레벨 내의 모든 측정 값이 서로 관련되어 있기 때문에 실제로 측정의 독립성에 대한 위반입니다. 의 경우

"다른 그룹 / 종이 실제로 유사하다면. 암컷 개와 수컷 개를 말하십시오. 우리는 성별을 모델에서 범주 형 변수로 사용할 수 있다고 생각합니다."

성별은 요인 가변적이고 고정 된 효과 인 반면, 성별 내 강아지 크기의 변동성은 임의의 영향입니다. 내 모델은

response ~ sex + (1|size), data=data

직관적으로, 래빗, 개 및 고양이는 개와 고양이의 크기가 서로 연관되어 있지 않기 때문에 별도로 모델링해야하지만, 두 개의 크기는 "종 내"변이의 일종입니다.


필자는 개인적으로 "중첩 또는 계층 구조"라는 용어가 너무 일반적이며 경계를 정의하기가 어렵다고 생각합니다.
Haitao Du

당신이 옳은 것 같다. 데이터에 존재하는 일종의 그룹화로 인해 IID의 가정이 위반 될 때 LMM이 사용되는 것 같습니다.
marianess
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.