Nakagawa & Schielzeth (2013) R2glmm 방법을 사용하여 혼합 모형에서


13

혼합 모델에서 값 계산에 대해 읽었으며 R-sig FAQ,이 포럼의 다른 게시물 (몇몇 링크하지만 평판이 충분하지 않음) 및 R 을 사용하는 것으로 이해하는 몇 가지 다른 참조를 읽었습니다. 혼합 모델의 맥락에서 2 개의 값은 복잡합니다.R2R2

그러나 최근에이 두 논문을 접했습니다. 이 방법들이 유망한 것처럼 보이지만 (나는) 통계학자가 아니므로 다른 사람이 제안한 방법과 제안 된 다른 방법과 비교할 수있는 방법에 대해 다른 사람이 궁금 할 것입니다.

나카가와, 신이치, 홀거 샤이 체스 "일반화 된 선형 혼합 효과 모델에서 R2를 얻는 일반적이고 간단한 방법입니다." 생태와 진화의 방법 4.2 (2013) : 133-142.

존슨, 폴 CD. "나카가와 & Schielzeth의 R2GLMM을 임의의 경사 모델로 확장." 생태와 진화의 방법 (2014).

is 메소드는 MuMIn 패키지 의 r.squaredGLMM 함수를 사용하여 구현할 수 있으며 다음 메소드에 대한 설명을 제공합니다.

혼합 효과 모델의 경우 는 두 가지 유형으로 분류 할 수 있습니다. 한계 R 2 는 고정 인수로 설명 된 분산을 나타내며 다음과 같이 정의됩니다. R G L M M ( m ) 2 = σ 2 fR2R2 조건부R2는 고정 및 랜덤 인자 (즉, 전체 모델)로 설명 된 분산으로 해석되며 방정식에 따라 계산됩니다. RGLMM(c)2=(σ 2 f +(σ 2 l ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 여기서σ 2 f 는 고정 효과 성분의 분산이고,(σ 2 l )는 모든 분산 성분 (그룹, 개별)의 합입니다 등)에서,σ 2 l 은 첨가제 분산으로 인한 분산이고σ 2 d 는 분포-특이 분산입니다.
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2σd2

내 분석에서 세로 데이터를보고 있으며 주로 모델의 고정 효과로 설명되는 분산에 관심이 있습니다.

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 

mathjax 형식을 사용하도록 게시물을 편집했습니다. 실수로 오류가 발생하지 않았는지 다시 확인하십시오.
Sycorax는 Reinstate Monica

내가 이해하는 한 귀하의 질문에는 실제 질문이 없습니다. 당신이 원하는 것을 명확히 할 수 있습니까? 무엇을 추천합니까?
Henrik

안녕하세요 @Henrik, 나는 무엇을 사용 해야하는지에 대한 관심에 관심이있었습니다. 그렇지만 다양한 방법이 서로 어떻게 비교되고 차이점이 무엇인지에 대해 더 광범위하게 설명했습니다.
Andrews

나는 원래의 방정식과 위의 방정식이 잘못되었다고 생각합니다. 이것은 @ user777의 변경 때문이 아닙니다. 오른쪽의 두 항은 분모에 있어야합니다. 참조 .
Cyrille

이 오류는 MuMIn 패키지 설명서 에 닫는 괄호 가 없어서 발생했을 수 있습니다 .
Cyrille

답변:


11

R2lme4nlme

사람들이 "GLMM을위한 R2"에 대해 이야기 할 때 약간의 곤란 함을 인정해야합니다. 선형 모델의 R2는 잘 정의되어 있으며 많은 바람직한 특성을 가지고 있습니다. 다른 모델의 경우 이러한 속성 중 일부만 반영하는 다른 수량을 정의 할 수 있습니다. 그러나 이것은 선형 모델의 R2 가하는 모든 속성을 갖는 숫자를 얻는다는 의미에서 R2를 계산하지 않습니다. 일반적으로 이러한 수량을 정의 할 수있는 여러 가지 방법이 있습니다. 특히 "응답 분산 비율"을 정의하기 전에 GLM 및 GLMM의 경우 먼저 "응답 분산"이 의미하는 바를 정의해야합니다.

다른 모델에 적용되는 선형 모델과 관련된 다른 수량의 R2 또는 자유도를 구성하는 것에 대한 혼동은 공식과 개념을 혼동하는 데 있습니다. 공식은 모델에서 파생되지만 파생에는 종종 매우 복잡한 수학이 포함됩니다. 잠재적으로 혼동되는 파생을 피하고 "추적"을 막기 위해 공식을 제시하는 것이 더 쉽습니다. 그러나 공식은 개념이 아닙니다. 공식을 일반화하는 것은 개념을 일반화하는 것과 다릅니다. 그리고 이러한 공식은 실제로 일반화 선형 모형, 분산 분석 및 랜덤 효과에 거의 사용되지 않습니다. 나는 서문에 주어진 공식에 따라 실제로 계산 된 유일한 양이 표본 평균이라는 "메타 정리"를 가지고 있습니다.

나는 이것에 대해 심술 old은 노인 인 것처럼 보일지 모르지만 아마도 사람들은 "R2와 같은"수량이 선형 모델에 대한 R2의 모든 속성을 가질 것으로 기대할 위험이 있습니다. 할 수 없습니다. GLMM과 같이 훨씬 더 복잡한 모델로 모든 속성을 일반화 할 방법이 없습니다.

한때는 박사 학위 논문 제안을 검토하는위원회에있었습니다. 입후보. 제안은 비선형 회귀 모델에 대해 R2를 계산하여 어떤 것이 "최고"인지를 결정하는 방법으로 간주 될 수있는 9 가지 다른 공식을 조사하는 것이 었습니다. 물론 이것은 서로 다른 몇 가지 모델과 각각에 대해 몇 가지 다른 매개 변수 값 집합을 사용한 시뮬레이션 연구를 통해 수행됩니다. 이것이 전적으로 무의미한 운동이라는 제안은 따뜻하게 맞이되지 않았습니다.


10

R2R2

  • Lahuis, D et al (2014) 다단계 모델에 대한 설명 된 분산 측정. 조직 연구 방법.

여기에 이미지 설명을 입력하십시오

R2R2R2R2R2R2(OLS)는 랜덤 슬로프 모델에서 표준 편차가 가장 낮았습니다. 일반적으로 Formula는 효율적인 추정기가 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.