이 답변은 나의 지식에 근거한 것이 아니라 Bolker et al. (2009) 는 저널 생태학 및 진화 저널에 영향력있는 논문을 썼습니다 . 이 기사는 공개적으로 액세스 할 수 없기 때문에 ( Google 학술 검색에서 기사를 검색하면 성공할 수 있지만, 질문의 일부를 해결하는 데 도움이 될 중요한 구절을 인용했다고 생각합니다. 이 글은 GLMM (진단 포함)에 대해 가장 간단하고 이해하기 쉬운 글쓰기 스타일로 가장 잘 요약 된 정보를 나타냅니다. 어쨌든이 답변이 어떤 이유로 든 적합하지 않다면 간단히 삭제하겠습니다. 진단에 관한 질문과 관련하여 유용합니다.대담한 .
페이지 127 :
비정규 데이터에 직면 한 연구자들은 비모수 적 테스트를 사용하거나 균형 설계의 비정규성에 대한 기존 ANOVA의 견고성에 의존하여 정규성과 분산의 동질성을 달성하기 위해 데이터를 변환하는 등의 지름길을 종종 시도합니다 [15]. 그들은 무작위 효과를 완전히 무시하거나 (의사 복제를 커밋) 고정 된 요소로 취급 할 수있다 [16]. 그러나 이러한 바로 가기는 실패 할 수 있습니다 (예 : 값이 많은 카운트 데이터는 변환을 통해 정상적으로 만들 수 없음). 성공하더라도 통계적 가정을 위반하거나 (비모수 적 테스트에서도 그룹 간의 분산 동질성 등의 가정을 함) 추론의 범위를 제한 할 수 있습니다 (새 그룹에 대한 고정 효과의 추정치를 추정 할 수 없음). 데이터를 기존 통계 프레임 워크로 분류하는 대신, 연구원은 데이터와 일치하는 통계적 접근 방식을 사용해야합니다. 일반화 선형 혼합 모형 (GLMM)은 생태 및 진화에 널리 사용되는 두 가지 통계 프레임 워크, 임의 효과를 포함하는 선형 혼합 모형 및 링크 함수 및 지수 계열을 사용하여 비정규 데이터를 처리하는 일반화 선형 모형의 특성을 결합합니다. 정규, 포아송 또는 이항 분포]. GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다. 선형 혼합 모형 (임의의 효과를 포함) 및 일반화 된 선형 모형 (링크 함수 및 지수 계열 (예 : 정규, 포아송 또는 이항) 분포를 사용하여 비정규 데이터를 처리) GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다. 선형 혼합 모형 (임의의 효과를 포함) 및 일반화 된 선형 모형 (링크 함수 및 지수 계열 (예 : 정규, 포아송 또는 이항) 분포를 사용하여 비정규 데이터를 처리) GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다.
페이지 129, 상자 1 :
잔차는 overdispersion를 표시 우리가 준 포아송 모델과 데이터를 튼튼 있도록. 대규모 추정 척도 모수 (10.8)에도 불구하고 탐색 그래프는 개인, 유전자형 또는 인구 수준에서 특이 치의 증거를 발견하지 못했습니다. 우리는 랜덤 효과 [49], 랜덤 효과 및 고정 효과 모델 선택을 위해 한 자유도를 사용하여 준 AIC (QAIC)를 사용했습니다.
페이지 133, 상자 4 :
여기에서는 GLMM 분석의 첫 단계 인 완전 (가장 복잡한) 모델을 구성하기위한 일반적인 프레임 워크를 설명합니다. 이 과정에 따라 본문과 그림 1에 설명 된대로 매개 변수를 평가하고 하위 모델을 비교할 수 있습니다.
고정 (치료 또는 공변량) 및 랜덤 효과 (실험, 공간 또는 시간 블록, 개인 등)를 지정하십시오. 중요한 상호 작용 만 포함하십시오. 경험 법칙 (임의의 효과 당 5 ~ 6 개의 무작위 효과 수준 및 처리 수준 또는 실험 단위당> 10 ~ 20 개의 샘플)과 적절한 샘플 크기에 대한 지식을 바탕으로 모델을 실행 가능한 수준의 복잡성으로 우선합니다. 이전 연구 [64,65].
오차 분포 및 링크 기능 (예 : 카운트 데이터의 경우 포아송 분포 및 로그 링크, 이항 분포 및 비례 데이터의 로짓 링크)을 선택하십시오.
그래픽 검사 : 데이터의 분산 (링크 기능으로 변환)이 범주간에 균질합니까? 연속 예측 변수와 관련하여 변환 된 데이터의 반응이 선형입니까? 특이한 개인이나 그룹이 있습니까? 그룹 내의 분포가 가정 된 분포와 일치합니까?
고정 효과 GLM을 전체 (풀링 된) 데이터 세트와 랜덤 요인의 각 수준에 모두 맞추십시오 [28,50]. 추정 된 매개 변수는 그룹 전체에 대략 정규 분포되어야합니다 (그룹 수준 매개 변수는 특히 표본 크기가 작은 그룹의 경우 불확실성이 클 수 있음). 필요에 따라 모델을 조정하십시오 (예 : 링크 기능 변경 또는 공변량 추가).
전체 GLMM을 장착하십시오. 컴퓨터 메모리 부족 또는 너무 느림 : 모델 복잡성을 줄입니다. 데이터의 부분 집합에서 추정이 성공하면보다 효율적인 추정 알고리즘 (예 : 적절한 경우 PQL)을 시도하십시오. 수렴하지 못함 (경고 또는 오류) : 모델 복잡성을 줄이거 나 최적화 설정을 변경합니다 (결과의 결과가 합리적이어야 함). 다른 추정 알고리즘을 시도하십시오. 제로 분산 성분 또는 특이성 (경고 또는 오류) : 모형이 올바르게 정의되고 식별 가능한지 확인하십시오 (즉, 이론적으로 모든 성분을 추정 할 수 있음). 모델 복잡성을 줄입니다. 모형에 정보를 추가하면 (추가 공변량 또는 임의 효과에 대한 새로운 그룹화) 평균을 빼서 연속 공변량을 중심으로하여 문제를 완화 할 수 있습니다 [50]. 필요한 경우 전체 모델에서 임의의 효과를 제거하십시오. (i) 본질적인 생물학적 관심이 덜한 용어, (ii) 추정 분산이 매우 작은 용어 및 / 또는 큰 불확실성이있는 용어 또는 (iii) 교호 작용 용어. 수렴 오류 또는 분산이 0이면 데이터가 충분하지 않을 수 있습니다.
3 단계에서와 같이 최종 모형에 대한 가정을 다시 확인하고 모수 추정값과 신뢰 구간이 합리적인지 확인하십시오 (거대한 신뢰 구간은 피팅 문제를 나타낼 수 있음). 표준화 잔차의 크기는 적합치와 무관해야합니다. 과대 산포를 평가합니다 (Pearson 잔차 제곱의 합은 분포 [66,67] 이어야 함 ). 필요한 경우 분포를 변경하거나 척도 모수를 추정하십시오. χ2표준 편차가 작은 드롭 된 임의 효과가 포함 된 전체 모형이 최종 모형과 유사한 결과를 제공하는지 확인하십시오. 모델이 다르면 모수 추정치가 크게 다른 경우 모델 평균을 고려하십시오.
과도 산포를 평가하기 위해 잔차 그림을 사용해야하며 변환 된 분산은 범주별로 균질해야합니다. 이 기사에서는 잔차가 정규 분포를 따르는 것으로 언급되지 않았습니다.
나는 대조적 인 진술이있는 이유는 GLMM (127-128 페이지)을 반영한다고 생각한다 ...
... 통계 전문가들에게도 사용하기가 놀랍습니다. 여러 소프트웨어 패키지가 GLMM을 처리 할 수 있지만 (표 1), 일부 생태 학자와 진화 생물학자는 다양한 옵션 또는 가능한 함정을 알고 있습니다. Google Scholar에서 발견 한 2005 년 이후의 생태 및 진화 논문을 검토 한 결과 537 개의 GLMM 분석 중 311 개 (58 %)가 이러한 도구를 어떤 식 으로든 부적절하게 사용했습니다 (온라인 보충 자료 참조).
그리고 여기 진단을 포함 GLMMs를 사용하여 몇 가지 전체 가공 한 예입니다.
이 답변은 의견과 비슷하며 그렇게 취급해야한다는 것을 알고 있습니다. 그러나 주석 섹션에서는 긴 주석을 추가 할 수 없습니다. 또한 나는이 논문이이 논의에 가치가 있다고 생각하기 때문에 (불행히도 유료 벽 뒤에서) 여기서 중요한 구절을 인용하는 것이 도움이 될 것이라고 생각했다.
인용 논문 :
[15]-GP Quinn, MJ Keough (2002) : Cambridge University Press 생물 학자 실험 설계 및 데이터 분석.
[16]-MJ Crawley (2002) : 통계 컴퓨팅 : S-PLUS, John Wiley & Sons를 사용한 데이터 분석 소개.
[28]-JC Pinheiro, DM Bates (2000) : Springer의 S와 S-PLUS의 혼합 효과 모델.
F. Vaida, S. Blanchard (2005) : 혼합 효과 모델에 대한 조건부 Akaike 정보. Biometrika, 92, 351–370 쪽.
A. Gelman, J. Hill (2006) : Cambridge University Press의 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석.
[64]-NJ Gotelli, AM Ellison (2004) : 생태 통계 입문서, Sinauer Associates.
FJ Harrell (2001) : Regression Modeling Strategies, Springer.
[66]-JK Lindsey (1997) : 일반화 선형 모델 적용, Springer.
[67]-W. Venables, BD Ripley (2002) : S, Springer를 사용한 현대 응용 통계
glm.diag.plots
그것은 jackknifed 이탈 잔류 물에 대한 것이라고 말합니다 (나는 구별이 중요하다고 생각합니다). 또한, 나는 당신이 카운트 데이터 를 가지고 수집 ; 그 사실에 집중하고 싶을 수도 있습니다. 예를 들어, 카운트는 어떤 의미에서 이분법적인 것으로 간주됩니다. 카운트 회귀에 대한 진단 도표는 도움이 될 것입니다 (혼합 효과 측면을 다루지는 않지만).