GLMM의 사양 및 해석에 관한 몇 가지 질문이 있습니다. 3 가지 질문은 확실히 통계적이며 2 개는 R에 대해 더 구체적입니다. 궁극적으로 문제가 GLMM 결과의 해석이라고 생각하기 때문에 여기에 게시하고 있습니다.
현재 GLMM에 맞추려고합니다. Longitudinal Tract Database 의 미국 인구 조사 데이터를 사용하고 있습니다. 제 관찰은 인구 조사입니다. 저의 종속 변수는 빈 주택 단위의 수이며 빈자리와 사회 경제적 변수 사이의 관계에 관심이 있습니다. 여기 예제는 두 가지 고정 된 효과, 즉 비백 인 인구 비율 (인종)과 중간 가구 소득 (클래스)과 그들의 상호 작용을 사용하는 것입니다. 나는 두 개의 중첩 된 랜덤 효과를 포함하고 싶습니다 : 수십 년과 수십 년 내의 트랙, 즉 (10 년 / 트랙). 공간 (즉, 트랙 간) 및 시간적 (즉, 수십 년) 자기 상관을 제어하려는 노력으로 이러한 무작위를 고려하고 있습니다. 그러나 나는 고정 효과로 10 년에 관심이 있으므로 고정 요소로도 포함시킵니다.
내 독립 변수는 음이 아닌 정수 카운트 변수이므로 포아송과 음 이항 GLMM에 맞추려고 노력했습니다. 총 주택 단위 로그를 오프셋으로 사용하고 있습니다. 이는 계수가 빈 집의 총 수가 아니라 공실률에 미치는 영향으로 해석됨을 의미합니다.
나는 현재 lis4에서 glmer 와 glmer.nb를 사용하여 추정 된 Poisson과 음의 이항 GLMM에 대한 결과를 가지고 있습니다 . 계수와 해석은 데이터와 연구 분야에 대한 나의 지식을 바탕으로 이해됩니다.
데이터 와 스크립트 를 원한다면 내 Github에 있습니다. 이 스크립트에는 모델을 작성하기 전에 수행 한 추가 설명이 포함되어 있습니다.
내 결과는 다음과 같습니다.
포아송 모델
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
음 이항 모델
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
푸 아송 DHARMa 테스트
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
음 이항 DHARMa 검정
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
DHARMa 플롯
푸 아송
음 이항
통계 질문
여전히 GLMM을 파악하고 있기 때문에 사양과 해석에 대해 불안합니다. 질문이 몇 개 있습니다:
내 데이터가 포아송 모델 사용을 지원하지 않는 것으로 보이므로 음수 이항 법을 사용하는 것이 좋습니다. 그러나 최대 한계를 늘려도 음의 이항 모델이 반복 한계에 도달한다는 경고가 지속적으로 나타납니다. "theta.ml (Y, mu, weights = object @ resp $ weights, limit = limit, : iteration limit limit에 도달했습니다.")는 몇 가지 다른 사양을 사용하여 발생합니다 (예 : 고정 및 랜덤 효과에 대한 최소 및 최대 모델). 또한 값의 상위 1 %가 매우 특이 치 (0-1012에서 99 % 범위, 1013-5213에서 상위 1 %)이므로 부양 가족에서 특이 치를 제거하려고 시도했습니다. 반복에는 영향을 미치지 않으며 계수에는 거의 영향을 미치지 않습니다. 포아송과 음 이항 사이의 계수도 매우 유사합니다. 이러한 수렴 부족이 문제입니까? 음 이항 모델이 적합합니까? 또한 다음을 사용하여 음 이항 모델을 실행했습니다.AllFit 및 모든 옵티마이 저가이 경고를 발생 시키지는 않습니다 (bobyqa, Nelder Mead 및 nlminbw는 그렇지 않음).
10 년간 고정 효과에 대한 분산이 지속적으로 매우 낮거나 0입니다. 이것이 모형이 과적 합을 의미 할 수 있음을 이해합니다. 고정 효과에서 10을 빼면 10의 임의 효과 분산이 0.2620으로 증가하고 고정 효과 계수에 큰 영향을 미치지 않습니다. 그대로 두는 데 문제가 있습니까? 관찰 편차 사이를 설명하는 데 필요하지 않은 것으로 해석하는 것이 좋습니다.
이 결과는 제로 팽창 모델을 시도해야 함을 나타 냅니까? DHARMa는 무 인플레이션이 문제가되지 않을 수 있다고 제안하는 것 같습니다. 어쨌든 시도해야한다고 생각되면 아래를 참조하십시오.
R 질문
나는 0 팽창 모델을 시도 할 의향이 있지만, 어떤 패키지가 0 팽창 Poisson 및 음 이항 GLMM에 대해 중첩 무작위 효과를 내포하는지 확실하지 않습니다. glmmADMB를 사용하여 AIC를 0으로 팽창 한 모델과 비교할 수 있지만 단일 임의 효과로 제한되므로이 모델에서는 작동하지 않습니다. MCMCglmm을 사용해 볼 수는 있지만 베이지안 통계를 알지 못하므로 매력적이지 않습니다. 다른 옵션이 있습니까?
요약 (모델) 내에 지수 계수를 표시 할 수 있습니까? 아니면 여기서 한 것처럼 요약 외부에서 계산해야합니까?
bobyqa
옵티 마이저 를 시도했지만 아무런 경고도 생성하지 않는다고 말했습니다. 그럼 뭐가 문제 야? 그냥 사용하십시오 bobyqa
.
bobyqa
기본 옵티 마이저보다 수렴이 우수합니다 (그리고 향후 버전에서 기본값이 될 것이라고 생각합니다 lme4
). 기본 옵티 마이저와 수렴하면 비 수렴에 대해 걱정할 필요가 없다고 생각합니다 bobyqa
.
decade
고정 된 것과 랜덤 한 것이 모두 의미가 없다. 고정되어 있고(1 | decade:TRTID10)
무작위 로만 포함 시키거나 (수십 년 동안 같은 수준이 없다고(1 | TRTID10)
가정하는TRTID10
것과 동일) 고정 효과에서 제거하십시오. 4 개의 레벨 만 있으면이를 고치는 것이 더 나을 수 있습니다. 일반적인 권장 사항은 5 개 이상의 레벨이있는 경우 임의의 효과에 맞추는 것입니다.