일반화 선형 혼합 모델 : 모델 선택


10

이 질문 / 주제는 동료와의 토론에서 나 왔으며 이것에 대한 의견을 찾고있었습니다.

랜덤 효과 로지스틱 회귀, 더 정확하게는 임의의 가로 채기 로지스틱 회귀를 사용하여 일부 데이터를 모델링하고 있습니다. 고정 효과의 경우 관심있는 9 개의 변수가 있습니다. 중요한 변수를 찾고“최상의”모델을 제공하기 위해 일종의 모델 선택을하고 싶습니다 (주요 효과 만).

첫 번째 아이디어는 AIC를 사용하여 다른 모델을 비교하는 것이었지만 9 개의 변수로 2 ^ 9 = 512 개의 다른 모델 (키워드 : 데이터 준설)을 비교하기에는 너무 흥미로 웠습니다.

나는 이것을 동료와 논의했으며 GLMM과 함께 단계별 (또는 앞으로) 모델 선택을 사용하는 것에 대해 읽은 것을 기억한다고 말했다. 그러나 p- 값을 사용하는 대신 (예 : GLMM에 대한 우도 비율 테스트를 기반으로) AIC를 입 / 출국 기준으로 사용해야합니다.

나는이 아이디어가 매우 흥미로웠다는 것을 알았지 만, 이것에 대해 더 논의한 참고 문헌을 찾지 못했고 동료는 그가 그것을 읽은 곳을 기억하지 못했다. 많은 책들이 모델을 비교하기 위해 AIC를 사용하라고 제안하지만 나는 이것을 단계적 또는 전진 모델 선택 절차와 함께 사용하는 것에 대한 토론을 찾지 못했습니다.

그래서 기본적으로 두 가지 질문이 있습니다.

  1. 단계적 모델 선택 절차에서 AIC를 출입 기준으로 사용하는 데 문제가 있습니까? 그렇다면 대안이 무엇입니까?

  2. 위의 절차를 설명하는 참조 자료가 있습니까 (최종 보고서에 대한 참조 자료가 있습니까?)

베스트,

에밀리아


3
단계별 모델 선택은 전체 서브 세트 선택만큼 많은 데이터 준설 (실제로 훨씬 짧은 시간 내에 거의 동일한 솔루션을 찾습니다). AIC 기반 선택도 데이터 준설입니다.
Michael M

답변:


8

다단계 모델에서는 "정규"회귀 분석에서 잘못된 것과 같은 이유로 단계적 선택이 잘못되었습니다. p- 값이 너무 낮고, 표준 오류가 너무 작으며, 매개 변수 추정치가 0에서 치우 치지 않습니다. 가장 중요합니다. 생각할 수있는 기회.

IV IV는 그리 많지 않습니다. 왜 9를 선택 했습니까? 분명히 당신은 이유가 있었다.

가장 먼저해야 할 일은 많은 음모를 보는 것입니다. 어떤 정확한 데이터는 데이터가 세로인지 (이 경우 x 축에 시간이있는 플롯이 종종 유용한 지) 또는 군집화되는지에 따라 약간 다릅니다. 그러나 9 IV와 DV 사이의 관계를 반드시보십시오 (병렬 상자 그림은 간단한 가능성 중 하나입니다).

실질적인 의미를 기반으로 몇 가지 모델을 구축하고 AIC, BIC 또는 다른 측정 값을 사용하여 모델을 비교하는 것이 이상적입니다. 그러나 가장 적합한 모델이 없다면 놀라지 마십시오. 당신은 당신이 어떤 분야에서 일하고 있는지 말하지 않지만 많은 (대부분?) 분야에서 자연은 복잡합니다. 여러 모델이 똑같이 잘 맞을 수 있고 다른 모델이 다른 데이터 세트에 더 잘 맞을 수 있습니다 (둘 다 동일한 모집단의 랜덤 표본 임에도 불구하고).

참고로 비선형 혼합 모델에 대한 좋은 책이 많이 있습니다. 어느 것이 가장 적합한지는 a) 현재 필드 b) 데이터의 특성 c) 어떤 소프트웨어를 사용 하는가에 따라 다릅니다.

귀하의 의견에 답변

  1. 9 개의 변수가 모두 과학적으로 중요하다면 적어도 모든 변수를 포함하는 것이 좋습니다. 모두가 중요하다고 생각하는 변수가 작은 영향을 미치면 흥미 롭습니다.

  2. 시간이 지남에 따라 그리고 다양한 방법으로 모든 변수를 플롯하십시오.

  3. 세로 형 다중 레벨 모델에 대한 일반적인 문제는 Hedeker와 Gibbons를 좋아합니다 . SAS I의 비선형 종 방향 모델의 경우 Molenberghs 및 Verbeke와 같습니다 . SAS 설명서 자체 ( PROC GLIMMIX)도 지침을 제공합니다.


이 연구에서, 대상체는 시간이 지남에 따라 다른 약물 및 운동 조합에 노출되며, 관심있는 결과는 특정 호흡 상태의 존재 (예 / 아니오)입니다. 환자는 6 개월에 걸쳐 2 주마다 반복적으로 측정됩니다. 소프트웨어 측면에서 저는 SAS와 R을 사용합니다. 과학적 중요성 때문에 조사자가 선택한 9 IV.
Emilia

알고리즘 모델 선택을 사용하는 것보다 나쁘지 않더라도 데이터 검사는 나쁘지 않습니다. 그 이유는 알고리즘 모델 선택이 잘 이해되고 잠재적으로 조정될 수 있기 때문입니다. 데이터를보고 주관적 판단을 사용하는 것은 복제하거나 조정할 수없는 프로세스입니다. 어쨌든 모델 선택이 추론을 무효화하기 때문에 모델 선택을 피할 수 있습니다. 여기에는 공변량이 9 개뿐이므로 최선의 조언은 전체 모형 또는 물질 만 기반으로 선택한 모형으로 작업하는 것입니다.
user3903581

3

LASSO와 같은 수축 방법을 사용하여 모델 선택을 더 잘 수행 할 수 있습니다. 단계적 방법은 너무 자유 롭습니다. 정당성에 대해서는 Tibshirani의 웹 페이지에서 찾을 수 있습니다. R을 glmmLasso사용하는 경우 LASSO 수축 방법을 사용하여 일반화 된 선형 혼합 효과 모델에서 모델을 선택할 수 있는 패키지 가 있습니다.


1

R에서 AIC 기반 혼합 모델 선택에 대한 좋은 참고 자료는 Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.