다단계 모델에서, 랜덤 효과 상관 파라미터를 추정하는 것과 추정하지 않는 것에 대한 실질적인 의미는 무엇입니까?


27

다단계 모델에서 추정과 랜덤 효과 상관 모수의 추정과 비교의 실제적이고 해석과 관련된 의미는 무엇입니까? 이를 요청하는 실제적인 이유는 R의 lmer 프레임 워크에서 매개 변수 간의 상관 모델에서 추정이 수행 될 때 MCMC 기법을 통해 p- 값을 추정하는 방법이 없기 때문입니다.

예를 들어이 예제 (아래 인용 부분)를 보면 M2와 M3의 실제 의미는 무엇입니까? 분명히, 어떤 경우에는 P5가 추정되지 않을 것이고 다른 경우에는 P5가 추정 될 것입니다.

질문

  1. 실용적인 이유로 (MCMC 기술을 통해 p- 값을 얻으려는 욕구) P5가 실질적으로 0이 아닌 경우에도 랜덤 효과간에 상관 관계없이 모델을 적합하게 만들 수 있습니다. 이 작업을 수행 한 다음 MCMC 기술을 통해 p- 값을 추정하면 결과를 해석 할 수 있습니까? (나는 @ 벤 Bolker 이전에 언급 한 알고있다 ") 나는 그렇게 할 수있는 충동을 이해하지만 (신뢰 구간을 점점 더 지원 가능한, MCMC와 중요성 테스트를 결합하는 것은 통계적으로, 약간의 모순이다" 는 것 그래서 만약 당신이 더 잘, 밤에 나는 신뢰 구간이라고 말했다.)
  2. P5를 추정하지 못하면 그것이 0이라고 주장하는 것과 동일합니까?
  3. P5가 실제로 0이 아닌 경우 P1-P4의 추정 값은 어떤 방식으로 영향을 받습니까?
  4. P5가 실제로 0이 아닌 경우 P1-P4에 대한 오류 추정치는 어떤 방식으로 영향을 받습니까?
  5. P5가 실제로 0이 아닌 경우, P5 결함을 포함하지 않는 모델의 해석은 어떤 방식으로 이루어 집니까?

@Mike Lawrence의 답변에서 빌려 왔습니다 (이 모델을 완전한 모델 표기법으로 자유롭게 대체 할 수있는 것보다 더 많은 지식이있는 사람들은 합리적인 충실도로 그렇게 할 수 있다고 전적으로 확신하지는 않습니다).

M2 : V1 ~ (1|V2) + V3 + (0+V3|V2)(P1-P4 추정)

M3 : V1 ~ (1+V3|V2) + V3(P1-P5 추정)

추정 될 수있는 모수 :

P1 : 전역 차단

P2 : V2에 대한 임의의 효과 차단 (즉, 각 수준의 V2, 해당 수준의 절편이 전역 절편과의 편차)

P3 : V3의 효과 (기울기)에 대한 단일 전역 추정치

P4 : V2의 각 레벨 내에서 V3의 영향 (보다 구체적으로, 주어진 레벨 내에서 V3 효과가 V3의 전체 효과에서 벗어난 정도)과 레벨 간 가로 채기 편차와 V3 효과 편차 사이에 제로 상관 관계 V2의.

P5 : V2 레벨에서 절편 편차와 V3 편차 간의 상관 관계

lmer을 사용하여 R에서 수반되는 코드와 함께 충분히 크고 넓은 시뮬레이션에서 파생 된 답변이 허용됩니다.



@ JackTanner : 거기에 만족하는 것 같지 않습니다. 이 질문에 대한 답변에서 귀하의 우려 사항도 해결되면 좋을 것입니다.
russellpierce

4
"당신의 _______ 방식으로 모델을 잘못 지정할 때 _______에 어떻게됩니까?"라는 많은 질문에 대한 정확한 답변을 제공하는 것은 아마도 이론을 탐구하지 않고는 불가능할 것입니다. 확실하지 않습니다). 내가 사용하는 전략은 기울기와 절편이 서로 밀접하게 관련되어있을 때 데이터를 시뮬레이션하고, 두 가지를 서로 관련시키지 않도록 제한하고 모델을 올바르게 지정했을 때의 결과를 비교하는 것입니다 (예 : "감도 분석").
매크로

4
귀하의 질문에, 나는 80 (100이 아님) % 다음을 확신합니다. re. # 2, 그렇습니다. 상관 관계를 추정하지 않으면 강제로 0이됩니다. 나머지의 경우 상관 관계가 실제로 정확히 0이 아닌 경우 데이터의 비 독립성을 잘못 지정하는 것입니다. 그럼에도 불구하고 베타는 편견이 없을 수 있지만 p- 값은 꺼져있을 것입니다 (그리고 너무 높거나 너무 낮은 지 여부는 알 수 없음). 따라서 베타에 대한 해석은 정상적으로 진행될 수 있지만 '의미'에 대한 해석은 부정확합니다.
gung-복직 모니카

2
@ 매크로 : 바운티가 시뮬레이션이 아닌 이론에 근거하여 좋은 답변을 얻을 수 있기를 바랍니다. 시뮬레이션을 통해 적절한 에지 케이스를 선택하지 않은 경우가 자주 있습니다. 나는 시뮬레이션을 실행하는 데는 능숙하지만 항상 약간의 느낌을 느낍니다 ... 올바른 시뮬레이션을 모두 실행하고 있는지 확신 할 수 없습니다 (저는 저널 편집자들이 결정을 내릴 수 있다고 생각하지만). 어떤 시나리오를 포함시켜야하는지 다른 질문을해야 할 수도 있습니다.
russellpierce

답변:


16

lme4에 포함 된 sleepstudy 데이터를 고려하십시오. 베이츠는 lme4에 대한 그의 온라인 에서 이것을 논의합니다 . 3 장에서는 데이터에 대한 두 가지 모델을 고려합니다.

0:반응1++(1|제목)+(0+|제목)

에이:반응1++(|제목)

이 연구는 18 명의 피험자들을 대상으로했으며 수면 박탈 10 일 동안 연구했습니다. 반응 시간은 기준 시점 및 그 다음날에 계산되었다. 반응 시간과 수면 박탈 기간 사이에는 분명한 효과가 있습니다. 과목들 사이에도 상당한 차이가 있습니다. 모델 A는 무작위 절편과 기울기 효과 사이의 상호 작용 가능성을 허용합니다. 예를 들어 반응 시간이 좋지 않은 사람들은 수면 부족 효과로 인해 더 심각하게 고통 받게됩니다. 이는 임의 효과에서 긍정적 인 상관 관계를 의미합니다.

베이츠의 예에서, 격자 플롯과 명백한 상관 관계는 없었으며 모델들 사이에는 큰 차이가 없었습니다. 그러나 위에서 제기 한 문제를 조사하기 위해 수면 연구의 적합치를 취하고 상관 관계를 파악하고 두 모델의 성능을 살펴보기로 결정했습니다.

이미지에서 볼 수 있듯이 반응 시간이 길면 성능 손실이 커집니다. 시뮬레이션에 사용 된 상관 관계는 0.58입니다.

여기에 이미지 설명을 입력하십시오

인공 데이터의 적합치에 따라 lme4의 시뮬레이션 방법을 사용하여 1000 개의 샘플을 시뮬레이션했습니다. 나는 M0과 Ma를 각각 맞추고 결과를 보았습니다. 원래 데이터 세트에는 180 개의 관측치 (18 명의 피험자 각각에 대해 10 개)가 있었고 시뮬레이션 된 데이터의 구조는 동일합니다.

결론은 차이가 거의 없다는 것입니다.

  1. 고정 매개 변수는 두 모델에서 정확히 동일한 값을 갖습니다.
  2. 무작위 효과는 약간 다릅니다. 각 시뮬레이션 된 샘플에 대해 18 개의 가로 채기 및 18 개의 경사 랜덤 효과가 있습니다. 각 표본에 대해 이러한 효과는 0에 더해 지므로 두 모형 간의 평균 차이는 (인공적으로) 0입니다. 그러나 분산과 공분산은 다릅니다. MA 하에서 평균 공분산은 104 였고, M0 하에서 84에 대하여 (실제 값, 112). 슬로프와 인터셉트의 분산은 MA보다 M0에서 더 높았으며, 이는 아마도 자유 공분산 매개 변수가없는 경우 필요한 추가 흔들림 공간을 얻는 것으로 추정됩니다.
  3. lmer의 ANOVA 방법은 Slope 모델을 임의 절편 만있는 모델과 비교하기위한 F 통계량을 제공합니다 (수면 박탈로 인한 영향 없음). 분명히이 값은 두 모델 모두에서 매우 크지 만 MA (평균 62 대 평균 55)에서는 일반적으로 (항상 그런 것은 아님) 더 컸습니다.
  4. 고정 효과의 공분산과 분산이 다릅니다.
  5. 약 절반의 시간은 MA가 정확하다는 것을 알고 있습니다. M0과 MA를 비교하기위한 중앙값 p- 값은 0.0442입니다. 의미있는 상관 관계와 180 개의 균형 관측 값이 있음에도 불구하고 올바른 모델은 약 절반 만 선택됩니다.
  6. 예측 된 값은 두 모델마다 다르지만 매우 약간 다릅니다. 예측 간의 평균 차이는 0이며 sd는 2.7입니다. 예측 값 자체의 SD는 60.9입니다.

왜 이런 일이 발생합니까? @gung은 합리적 가능성을 포함하지 않으면 랜덤 효과가 상관되지 않는다고 추측했다. 아마도 그럴 것입니다. 그러나이 구현에서 랜덤 효과는 상관 될 수 있습니다. 즉, 모델에 관계없이 데이터가 올바른 방향으로 매개 변수를 가져올 수 있습니다. 잘못된 모델의 잘못된 점이 가능성에 나타나기 때문에 해당 레벨에서 두 모델을 구별 할 수 있습니다 (때로는). 혼합 효과 모델은 기본적으로 각 주제에 선형 회귀 분석을 적용하며, 모델이 생각하는 바에 따라 영향을받습니다. 잘못된 모델은 올바른 모델에서 얻는 것보다 덜 적절한 값의 적합을 강제합니다. 그러나 하루가 끝날 때 매개 변수는 실제 데이터에 대한 적합성에 의해 결정됩니다.

여기에 이미지 설명을 입력하십시오

여기 약간 어색한 코드가 있습니다. 아이디어는 수면 연구 데이터를 맞추고 동일한 매개 변수를 사용하지만 무작위 효과에 대해 더 큰 상관 관계를 갖는 시뮬레이션 된 데이터 세트를 구축하는 것이 었습니다. 이 데이터 세트는 1000 샘플을 시뮬레이션하기 위해 simulate.lmer ()에 공급되었으며, 각 샘플은 두 가지 방식에 모두 적합했습니다. 일단 적합 물체를 짝지 으면, t- 검정 등을 사용하여 적합의 다른 특징을 끌어와 비교할 수 있습니다.

    # Fit a model to the sleep study data, allowing non-zero correlation
fm01 <- lmer(Reaction ~ 1 + Days +(1+Days|Subject), data=sleepstudy, REML=FALSE)
# Now use this to build a similar data set with a correlation = 0.9
# Here is the covariance function for the random effects
# The variances come from the sleep study. The covariance is chosen to give a larger correlation
sigma.Subjects <- matrix(c(565.5,122,122,32.68),2,2) 
# Simulate 18 pairs of random effects
ranef.sim <- mvrnorm(18,mu=c(0,0),Sigma=sigma.Subjects)
# Pull out the pattern of days and subjects.
XXM <- model.frame(fm01) 
n <- nrow(XXM) # Sample size
# Add an intercept to the model matrix.
XX.f <- cbind(rep(1,n),XXM[,2])
# Calculate the fixed effects, using the parameters from the sleep study. 
yhat <- XX.f %*%  fixef(fm01 )
# Simulate a random intercept for each subject
intercept.r <- rep(ranef.sim[,1], each=10) 
# Now build the random slopes
slope.r <- XXM[,2]*rep(ranef.sim[,2],each=10)
# Add the slopes to the random intercepts and fixed effects
yhat2 <- yhat+intercept.r+slope.r
# And finally, add some noise, using the variance from the sleep study
y <- yhat2 + rnorm(n,mean=0,sd=sigma(fm01))
# Here is new "sleep study" data, with a stronger correlation.
new.data <- data.frame(Reaction=y,Days=XXM$Days,Subject=XXM$Subject)
# Fit the new data with its correct model
fm.sim <- lmer(Reaction ~ 1 + Days +(1+Days|Subject), data=new.data, REML=FALSE)
# Have a look at it
xyplot(Reaction ~ Days | Subject, data=new.data, layout=c(6,3), type=c("p","r"))
# Now simulate 1000 new data sets like new.data and fit each one
# using the right model and zero correlation model.
# For each simulation, output a list containing the fit from each and
# the ANOVA comparing them.
n.sim <- 1000
    sim.data <- vector(mode="list",)
    tempReaction <- simulate(fm.sim, nsim=n.sim)
    tempdata <- model.frame(fm.sim)
    for (i in 1:n.sim){
        tempdata$Reaction <- tempReaction[,i]
			output0 <- lmer(Reaction ~ 1 + Days +(1|Subject)+(0+Days|Subject), data = tempdata, REML=FALSE)
			output1 <- lmer(Reaction ~ 1 + Days +(Days|Subject), data=tempdata, REML=FALSE)
			temp <- anova(output0,output1)
			pval <- temp$`Pr(>Chisq)`[2]
        sim.data[[i]] <- list(model0=output0,modelA=output1, pvalue=pval)
    }

1
흥미로운 작품입니다. 고맙습니다. 다음 며칠 동안 다른 의견이 나오는지, 답변을 수락하기 전에 다른 사례로 일반화되는 방식을보고 싶습니다. 답변에 관련 R 코드를 포함시키고 사용한 lmer의 버전을 지정하는 것도 고려 하시겠습니까? 동일한 시뮬레이션 사례를 PROC MIXED에 제공하여 지정되지 않은 임의 효과 상관 관계를 처리하는 방법을 살펴 보는 것이 흥미로울 것입니다.
russellpierce 2016 년

1
@ rpierce 요청에 따라 코드 샘플을 추가했습니다. 원래 LaTeX / Sweave로 작성 했으므로 코드 줄이 내 의견과 직접 연결되었습니다. 2014 년 6 월 현재 버전 인 lme4 버전 1.1-6을 사용했습니다.
Placidia

@ 두 번째 단락에서 "모델 A가 허용"이라고 말할 때 MO가 아니어야합니까?
nzcoops

나는 텍스트가 올바른 생각 (나는이 질문에 위해 한 모든 수식을 조금 싸게 치장했다)
벤 Bolker

+6. 오래되었지만 가치있는 질문에 관심을 가져 주셔서 감사합니다.
amoeba는

4

Placidia는 이미 sleepstudy데이터 세트를 기반으로 시뮬레이션 된 데이터를 사용하여 철저한 답변을 제공했습니다 . 다음은 sleepstudy데이터를 사용하는 또 다른 (엄격한) 대답입니다 .

랜덤 예측 변수를 "시프 팅 (shifting)"함으로써 랜덤 인터셉트와 랜덤 슬로프 사이의 추정 된 상관에 영향을 미칠 수 있음을 알 수있다. 모델 fm1fm2아래 의 결과를보십시오 .

library(lmer)

#Fit Models
fm1 <- lmer(Reaction ~ Days + (Days | Subject), sleepstudy)
k <- 3 # Shift "Days" by an arbitrary amount
fm2 <- lmer(Reaction ~ I(Days + k) + (I(Days + k)| Subject), sleepstudy)

fm1 # Model Output
# Linear mixed model fit by REML ['lmerMod']
# Formula: Reaction ~ Days + (Days | Subject)
# Data: sleepstudy
# REML criterion at convergence: 1743.628
# Random effects:
#   Groups   Name        Std.Dev. Corr
# Subject  (Intercept) 24.740       
# Days         5.922   0.07
# Residual             25.592       
# Number of obs: 180, groups:  Subject, 18
# Fixed Effects:
#   (Intercept)         Days  
# 251.41        10.47

fm2 # Model Output
# Linear mixed model fit by REML ['lmerMod']
# Formula: Reaction ~ I(Days + k) + (I(Days + k) | Subject)
# Data: sleepstudy
# REML criterion at convergence: 1743.628
# Random effects:
#   Groups   Name        Std.Dev. Corr 
# Subject  (Intercept) 29.498        
# I(Days + k)  5.922   -0.55
# Residual             25.592        
# Number of obs: 180, groups:  Subject, 18
# Fixed Effects:
#   (Intercept)  I(Days + k)  
# 220.00        10.47

# Random effects from both models
cbind(ranef(fm1)$Subject,ranef(fm2)$Subject)
# (Intercept)        Days (Intercept) I(Days + k)
# 308   2.2585654   9.1989719 -25.3383538   9.1989727
# 309 -40.3985769  -8.6197032 -14.5394628  -8.6197043
# 310 -38.9602458  -5.4488799 -22.6136027  -5.4488807
# 330  23.6904985  -4.8143313  38.1334933  -4.8143315
# 331  22.2602027  -3.0698946  31.4698868  -3.0698946
# 332   9.0395259  -0.2721707   9.8560377  -0.2721706
# 333  16.8404311  -0.2236244  17.5113040  -0.2236243
# 334  -7.2325792   1.0745761 -10.4563076   1.0745761
# 335  -0.3336958 -10.7521591  31.9227854 -10.7521600
# 337  34.8903508   8.6282840   9.0054946   8.6282850
# 349 -25.2101104   1.1734142 -28.7303527   1.1734141
# 350 -13.0699567   6.6142050 -32.9125736   6.6142054
# 351   4.5778352  -3.0152572  13.6236077  -3.0152574
# 352  20.8635924   3.5360133  10.2555505   3.5360138
# 369   3.2754530   0.8722166   0.6588028   0.8722167
# 370 -25.6128694   4.8224646 -40.0802641   4.8224648
# 371   0.8070397  -0.9881551   3.7715053  -0.9881552
# 372  12.3145393   1.2840297   8.4624492   1.2840300

모형 출력에서 ​​랜덤 분산 상관 관계가 변경되었음을 알 수 있습니다. 그러나 기울기 (고정 및 랜덤)는 잔차 분산 추정치와 동일하게 유지되었습니다. 절편 (고정 및 랜덤) 추정값은 이동 된 변수에 따라 변경됩니다.

LMM에 대한 랜덤 인터셉트-슬로프 공분산의 상관 관계 해제는 Jack Weiss 박사의 강의 노트 에서 논의 됩니다 . 와이스는 이런 방식으로 분산 상관 관계를 줄이면 모델 수렴에 도움이 될 수 있다고 지적했다.

위의 예는 랜덤 상관 관계를 변경합니다 (매개 변수 "P5"). OP의 Q3을 부분적으로 언급하면 ​​위 출력에서 ​​다음과 같은 결과를 볼 수 있습니다.

#   Parameter           Status
=================================
P1  Fixed Intercept     Affected
P2  Random Intercepts   Affected
P3  Fixed Slope         Not Affected
P4  Random Slopes       Not Affected
P5  Random Correlation  Affected

이 오랜 질문에 신호를 추가해 주셔서 감사합니다!
russellpierce

참고 : 잭 와이즈의 훌륭한 강의와 계급 운동의 모든 / 노트에 연결되어있는 이 게시물
theforestecologist

그런 다음 문제의 데이터를 어떻게 해석해야합니까? "진정한"상관 관계는 무엇입니까? 첫 번째 모델과 두 번째 모델 중 하나? 아니면 BLUP에서 온 것입니까?
User33268
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.