일반화 선형 (혼합) 모델 진단 (특히 잔차)


25

현재 어려운 카운트 데이터 (종속 변수)에 적합한 모델을 찾는 데 어려움을 겪고 있습니다. 나는 여러 가지 다른 모델을 시도했다 (혼합 효과 모델은 데이터의 나의 종류에 필요한)와 같은 lmerlme4아니라 가우시안 (Gaussian) 또는 음 이항 등 다양한 가족과 함께 혼합 효과 모델 선형 일반화로 (로그로 변환).

그러나 결과 피팅을 올바르게 진단하는 방법에 대해서는 확신이 없습니다. 나는 웹에서 그 주제에 대해 많은 다른 의견을 발견했다. 선형 회귀 분석에 대한 진단은 매우 간단하다고 생각합니다. 잔차와 비교하여 적합치를 플로팅하여 잔차 (정규)를 분석하고 이분산성을 연구 할 수 있습니다.

그러나 일반화 된 버전에서 어떻게 올바르게 수행합니까? 지금은 음 이항 (혼합) 회귀에 초점을 맞추겠습니다. 나는 잔존물에 관해 상당히 반대되는 진술을 보았습니다.

  1. 에서 일반화 선형 모델에서 정상에 대한 잔류 검사 는 일반 잔차가 일반적으로 GLM에 대한 분산되지 않는다는 첫 번째 대답에 지적된다; 나는 이것이 분명하다고 생각합니다. 그러나 Pearson과 이탈 잔차도 정상이 아니라고 지적됩니다. 그러나 두 번째 대답은 이탈 잔차가 정상적으로 분포되어야한다는 것입니다 (참조와 결합).

  2. 이탈 잔차가 정상적으로 분포되어야한다는 것은 R 패키지 에서 ? glm.diag.plots 에 대한 문서에서 암시됩니다 boot.

  3. 에서 이 블로그 게시물 , 저자는 먼저 NB 혼합 효과 회귀 모델에 대한 피어슨 잔차는 내가 가정 무엇 정상입니다 공부했다. 예상대로 (내 솔직한 의견으로는) 잔차가 정상으로 보이지 않았으며 저자는이 모델이 적합하지 않은 것으로 가정했습니다. 그러나 의견에서 언급했듯이 잔차는 음의 이항 분포에 따라 분포되어야합니다. 제 생각에 이것은 GLM 잔차가 정규 분포와 다른 분포를 가질 수 있으므로 진실에 가장 가깝습니다. 이 올바른지? 이분산성과 같은 것들을 확인하는 방법?

  4. Ben & Yohai (2004) 에서 마지막 점 (추정 분포의 Quantile에 대한 잔차를 플로팅하는 것)이 강조됩니다 . 현재 이것은 나를 위해 갈 길입니다.

간단히 말해서 : 잔차에 중점을 둔 일반화 된 선형 (혼합) 회귀 모형의 모형 적합을 어떻게 올바르게 연구합니까?


1
GLM의 잔차는 일반적으로 일반적이지 않지만 ( 여기 참조 ) GLM에는 많은 종류의 잔차가 있습니다. 예를 들어, glm.diag.plots그것은 jackknifed 이탈 잔류 물에 대한 것이라고 말합니다 (나는 구별이 중요하다고 생각합니다). 또한, 나는 당신이 카운트 데이터 를 가지고 수집 ; 그 사실에 집중하고 싶을 수도 있습니다. 예를 들어, 카운트는 어떤 의미에서 이분법적인 것으로 간주됩니다. 카운트 회귀에 대한 진단 도표는 도움이 될 것입니다 (혼합 효과 측면을 다루지는 않지만).
gung-모니 티 복원

언급 한 게시물에 익숙합니다. 그러나 (편차) 잔차가 정상이어야 함을 암시하는 진술도 있습니다. "우리는 매우 큰 잔차와 이탈 잔차가 법선으로부터 실질적으로 벗어난 것을 볼 수 있습니다 (모두 포아송과 대결)".
fsociety

답변:


18

이 답변은 나의 지식에 근거한 것이 아니라 Bolker et al. (2009) 는 저널 생태학 및 진화 저널에 영향력있는 논문을 썼습니다 . 이 기사는 공개적으로 액세스 할 수 없기 때문에 ( Google 학술 검색에서 기사를 검색하면 성공할 수 있지만, 질문의 일부를 해결하는 데 도움이 될 중요한 구절을 인용했다고 생각합니다. 이 글은 GLMM (진단 포함)에 대해 가장 간단하고 이해하기 쉬운 글쓰기 스타일로 가장 잘 요약 된 정보를 나타냅니다. 어쨌든이 답변이 어떤 이유로 든 적합하지 않다면 간단히 삭제하겠습니다. 진단에 관한 질문과 관련하여 유용합니다.대담한 .

페이지 127 :

비정규 데이터에 직면 한 연구자들은 비모수 적 테스트를 사용하거나 균형 설계의 비정규성에 대한 기존 ANOVA의 견고성에 의존하여 정규성과 분산의 동질성을 달성하기 위해 데이터를 변환하는 등의 지름길을 종종 시도합니다 [15]. 그들은 무작위 효과를 완전히 무시하거나 (의사 복제를 커밋) 고정 된 요소로 취급 할 수있다 [16]. 그러나 이러한 바로 가기는 실패 할 수 있습니다 (예 : 값이 많은 카운트 데이터는 변환을 통해 정상적으로 만들 수 없음). 성공하더라도 통계적 가정을 위반하거나 (비모수 적 테스트에서도 그룹 간의 분산 동질성 등의 가정을 함) 추론의 범위를 제한 할 수 있습니다 (새 그룹에 대한 고정 효과의 추정치를 추정 할 수 없음). 데이터를 기존 통계 프레임 워크로 분류하는 대신, 연구원은 데이터와 일치하는 통계적 접근 방식을 사용해야합니다. 일반화 선형 혼합 모형 (GLMM)은 생태 및 진화에 널리 사용되는 두 가지 통계 프레임 워크, 임의 효과를 포함하는 선형 혼합 모형 및 링크 함수 및 지수 계열을 사용하여 비정규 데이터를 처리하는 일반화 선형 모형의 특성을 결합합니다. 정규, 포아송 또는 이항 분포]. GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다. 선형 혼합 모형 (임의의 효과를 포함) 및 일반화 된 선형 모형 (링크 함수 및 지수 계열 (예 : 정규, 포아송 또는 이항) 분포를 사용하여 비정규 데이터를 처리) GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다. 선형 혼합 모형 (임의의 효과를 포함) 및 일반화 된 선형 모형 (링크 함수 및 지수 계열 (예 : 정규, 포아송 또는 이항) 분포를 사용하여 비정규 데이터를 처리) GLMM은 랜덤 효과를 포함하는 비정규 데이터를 분석하는 가장 좋은 도구입니다. 원칙적으로 모든 것은 랜덤 효과의 분포, 링크 기능 및 구조를 지정해야합니다.

페이지 129, 상자 1 :

잔차는 overdispersion를 표시 우리가 준 포아송 모델과 데이터를 튼튼 있도록. 대규모 추정 척도 모수 (10.8)에도 불구하고 탐색 그래프는 개인, 유전자형 또는 인구 수준에서 특이 치의 증거를 발견하지 못했습니다. 우리는 랜덤 효과 [49], 랜덤 효과 및 고정 효과 모델 선택을 위해 한 자유도를 사용하여 준 AIC (QAIC)를 사용했습니다.

페이지 133, 상자 4 :

여기에서는 GLMM 분석의 첫 단계 인 완전 (가장 복잡한) 모델을 구성하기위한 일반적인 프레임 워크를 설명합니다. 이 과정에 따라 본문과 그림 1에 설명 된대로 매개 변수를 평가하고 하위 모델을 비교할 수 있습니다.

  1. 고정 (치료 또는 공변량) 및 랜덤 효과 (실험, 공간 또는 시간 블록, 개인 등)를 지정하십시오. 중요한 상호 작용 만 포함하십시오. 경험 법칙 (임의의 효과 당 5 ~ 6 개의 무작위 효과 수준 및 처리 수준 또는 실험 단위당> 10 ~ 20 개의 샘플)과 적절한 샘플 크기에 대한 지식을 바탕으로 모델을 실행 가능한 수준의 복잡성으로 우선합니다. 이전 연구 [64,65].

  2. 오차 분포 및 링크 기능 (예 : 카운트 데이터의 경우 포아송 분포 및 로그 링크, 이항 분포 및 비례 데이터의 로짓 링크)을 선택하십시오.

  3. 그래픽 검사 : 데이터의 분산 (링크 기능으로 변환)이 범주간에 균질합니까? 연속 예측 변수와 관련하여 변환 된 데이터의 반응이 선형입니까? 특이한 개인이나 그룹이 있습니까? 그룹 내의 분포가 가정 된 분포와 일치합니까?

  4. 고정 효과 GLM을 전체 (풀링 된) 데이터 세트와 랜덤 요인의 각 수준에 모두 맞추십시오 [28,50]. 추정 된 매개 변수는 그룹 전체에 대략 정규 분포되어야합니다 (그룹 수준 매개 변수는 특히 표본 크기가 작은 그룹의 경우 불확실성이 클 수 있음). 필요에 따라 모델을 조정하십시오 (예 : 링크 기능 변경 또는 공변량 추가).

  5. 전체 GLMM을 장착하십시오. 컴퓨터 메모리 부족 또는 너무 느림 : 모델 복잡성을 줄입니다. 데이터의 부분 집합에서 추정이 성공하면보다 효율적인 추정 알고리즘 (예 : 적절한 경우 PQL)을 시도하십시오. 수렴하지 못함 (경고 또는 오류) : 모델 복잡성을 줄이거 나 최적화 설정을 변경합니다 (결과의 결과가 합리적이어야 함). 다른 추정 알고리즘을 시도하십시오. 제로 분산 성분 또는 특이성 (경고 또는 오류) : 모형이 올바르게 정의되고 식별 가능한지 확인하십시오 (즉, 이론적으로 모든 성분을 추정 할 수 있음). 모델 복잡성을 줄입니다. 모형에 정보를 추가하면 (추가 공변량 또는 임의 효과에 대한 새로운 그룹화) 평균을 빼서 연속 공변량을 중심으로하여 문제를 완화 할 수 있습니다 [50]. 필요한 경우 전체 모델에서 임의의 효과를 제거하십시오. (i) 본질적인 생물학적 관심이 덜한 용어, (ii) 추정 분산이 매우 작은 용어 및 / 또는 큰 불확실성이있는 용어 또는 (iii) 교호 작용 용어. 수렴 오류 또는 분산이 0이면 데이터가 충분하지 않을 수 있습니다.

  6. 3 단계에서와 같이 최종 모형에 대한 가정을 다시 확인하고 모수 추정값과 신뢰 구간이 합리적인지 확인하십시오 (거대한 신뢰 구간은 피팅 문제를 나타낼 수 있음). 표준화 잔차의 크기는 적합치와 무관해야합니다. 과대 산포를 평가합니다 (Pearson 잔차 제곱의 합은 분포 [66,67] 이어야 함 ). 필요한 경우 분포를 변경하거나 척도 모수를 추정하십시오. χ2표준 편차가 작은 드롭 된 임의 효과가 포함 된 전체 모형이 최종 모형과 유사한 결과를 제공하는지 확인하십시오. 모델이 다르면 모수 추정치가 크게 다른 경우 모델 평균을 고려하십시오.

과도 산포를 평가하기 위해 잔차 그림을 사용해야하며 변환 된 분산은 범주별로 균질해야합니다. 이 기사에서는 잔차가 정규 분포를 따르는 것으로 언급되지 않았습니다.

나는 대조적 인 진술이있는 이유는 GLMM (127-128 페이지)을 반영한다고 생각한다 ...

... 통계 전문가들에게도 사용하기가 놀랍습니다. 여러 소프트웨어 패키지가 GLMM을 처리 할 수 ​​있지만 (표 1), 일부 생태 학자와 진화 생물학자는 다양한 옵션 또는 가능한 함정을 알고 있습니다. Google Scholar에서 발견 한 2005 년 이후의 생태 및 진화 논문을 검토 한 결과 537 개의 GLMM 분석 중 311 개 (58 %)가 이러한 도구를 어떤 식 으로든 부적절하게 사용했습니다 (온라인 보충 자료 참조).

그리고 여기 진단을 포함 GLMMs를 사용하여 몇 가지 전체 가공 한 예입니다.

이 답변은 의견과 비슷하며 그렇게 취급해야한다는 것을 알고 있습니다. 그러나 주석 섹션에서는 긴 주석을 추가 할 수 없습니다. 또한 나는이 논문이이 논의에 가치가 있다고 생각하기 때문에 (불행히도 유료 벽 뒤에서) 여기서 중요한 구절을 인용하는 것이 도움이 될 것이라고 생각했다.

인용 논문 :

[15]-GP Quinn, MJ Keough (2002) : Cambridge University Press 생물 학자 실험 설계 및 데이터 분석.

[16]-MJ Crawley (2002) : 통계 컴퓨팅 : S-PLUS, John Wiley & Sons를 사용한 데이터 분석 소개.

[28]-JC Pinheiro, DM Bates (2000) : Springer의 S와 S-PLUS의 혼합 효과 모델.

F. Vaida, S. Blanchard (2005) : 혼합 효과 모델에 대한 조건부 Akaike 정보. Biometrika, 92, 351–370 쪽.

A. Gelman, J. Hill (2006) : Cambridge University Press의 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석.

[64]-NJ Gotelli, AM Ellison (2004) : 생태 통계 입문서, Sinauer Associates.

FJ Harrell (2001) : Regression Modeling Strategies, Springer.

[66]-JK Lindsey (1997) : 일반화 선형 모델 적용, Springer.

[67]-W. Venables, BD Ripley (2002) : S, Springer를 사용한 현대 응용 통계


고마워, 그것은 실제로 도움이됩니다. 저는 Bolker의 코딩 예제에 대해서는 알고 있었지만 실제 논문은 아닙니다. 그래도 여전히 궁금한 점은 그래픽 검사가 수천 그룹의 대규모 데이터에 어떻게 적용되는지입니다. 모델을 올바르게 확인하는 방법에 대한 지침을 제공하는 몇 가지 논문 (예 : 논문)은 모두 소규모 데이터에만 적용됩니다. 그런 다음 그룹을 선택하고 무언가를 시각화하는 것이 훨씬 쉽습니다. 누군가가 미래에 더 복잡한 예를 겪으면 좋은 과학적 기여를 할 수 있다고 생각합니다.
fsociety

1
이것이 유용했기 때문에 기쁘다! 제시된 예제는 이미 적어도 복잡하다고 생각합니다. 더 큰 문제는 더 큰 데이터 세트와 더 복잡한 모델이 텍스트에서 언급 한 것처럼 계산이 불가능할 수 있다는 것입니다. "[...] ML 추정값을 찾으려면 가능한 모든 랜덤 효과 값에 대한 가능성을 통합해야합니다. 이 계산은 속도가 가장 느리고 최악의 경우 (예 : 많은 수의 임의 효과의 경우) 계산이 불가능합니다. " 그래도 놀라운 점과 명심해야 할 점은 활발한 조사를 받고있는 도구를 사용하고 있다는 것입니다!
Stefan

9

이것은 오래된 질문이지만 OP에서 제안한 옵션 4를 이제 DHARMa R 패키지에서 사용할 수 있다는 점을 추가하는 것이 유용하다고 생각했습니다 (CRAN에서 사용 가능, 여기 참조 ).

패키지는 허용 된 답변에 의해 제안 된 시각적 잔차 검사를 훨씬 더 신뢰할 수 있고 쉽게 만듭니다.

패키지 설명에서 :

DHARMa 패키지는 시뮬레이션 기반 접근법을 사용하여 적합 화 된 일반 선형 혼합 모델에서 쉽게 해석 가능한 스케일링 잔차를 만듭니다. 현재 지원되는 'lme4'의 'merMod'클래스 ( 'lmerMod', 'glmerMod'), 'glm'( 'MASS'의 'negbin'포함, 준 분배 제외) 및 'lm'모델 클래스가 현재 지원됩니다. 또는 외부에서 생성 된 시뮬레이션 (예 : 'JAGS', 'STAN'또는 'BUGS'와 같은 Bayesian 소프트웨어의 사후 예측 시뮬레이션)도 처리 할 수 ​​있습니다. 결과 잔차는 0과 1 사이의 값으로 표준화되며 선형 회귀의 잔차로 직관적으로 해석 될 수 있습니다. 이 패키지는 또한 전형적인 모델 축소 문제에 대한 다양한 플롯 및 테스트 기능을 제공합니다.


1
이 스레드에 아주 좋은 추가!
Stefan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.