혼합 모델 (임의 효과로 대상)을 간단한 선형 모델 (고정 효과로 대상)과 비교


10

큰 데이터 세트에 대한 분석을 마무리하고 있습니다. 작업의 첫 번째 부분에 사용 된 선형 모델을 가져 와서 선형 혼합 모델 (LME)을 사용하여 다시 피팅하고 싶습니다. LME는 모델에 사용 된 변수 중 하나가 랜덤 효과로 사용된다는 점을 제외하면 매우 유사합니다. 이 데이터는 작은 주제 그룹 (~ 10)의 많은 관측치 (> 1000)에서 비롯되었으며 주제의 효과를 모델링하는 것이 무작위 효과 (이는 변경하려는 변수 임)로 더 나은 것으로 알고 있습니다. R 코드는 다음과 같습니다.

my_modelB <- lm(formula = A ~ B + C + D)    
lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML')

모든 것이 잘 돌아가고 결과는 매우 비슷합니다. RLRsim 또는 AIC / BIC와 같은 것을 사용 하여이 두 모델을 비교하고 가장 적합한 모델을 결정할 수 있다면 좋을 것입니다. LME가 더 적합한 모델이라고 생각하더라도 "더 나은"방법을 쉽게 선택할 수있는 방법이 없기 때문에 동료들은 LME를보고하고 싶지 않습니다. 어떤 제안?

답변:


6

댓글로 게시하기에는 너무 길기 때문에 @ocram의 답변에 추가하는 것입니다. 중첩 모델 설정에서 레벨 임의의 절편 A ~ B + C의 통계적 유의성을 평가할 수 있도록 null 모델로 취급 합니다 D. ocram이 지적했듯이, 일 때 규칙 성 조건이 위반 되며 가능성 비율 테스트 통계 (LRT)가 반드시 무증상으로 분포되는 것은 아닙니다 . 내가 가르친 해결책은 LRT (부트 스트랩 배포는 아닐 것입니다 )를 매개 변수로 부트 스트랩하고 다음과 같이 부트 스트랩 p- 값을 계산하는 것입니다.H0:σ2=0χ2χ2

library(lme4)
my_modelB <- lm(formula = A ~ B + C)
lme_model <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
lrt.observed <- as.numeric(2*(logLik(lme_model) - logLik(my_modelB)))
nsim <- 999
lrt.sim <- numeric(nsim)
for (i in 1:nsim) {
    y <- unlist(simulate(mymodlB))
    nullmod <- lm(y ~ B + C)
    altmod <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
    lrt.sim[i] <- as.numeric(2*(logLik(altmod) - logLik(nullmod)))
}
mean(lrt.sim > lrt.observed) #pvalue

부트 스트랩 된 LRT의 비율은 관찰 된 LRT가 p- 값보다 극단입니다.


답변을 완료 해 주셔서 감사합니다. 또한 때때로 사람들은 검정 통계량에 카이 제곱 분포 대신 카이 제곱 혼합을 사용합니다.
ocram

변수를 무작위로 처리할지 아니면 분석과 별도로 고정할지 결정하는 데 대한 의견에 @ocram +1. @MudPhud PI가 문제를 이해하지 못하고 p- 값을 주장하는 경우 임의 효과 테스트 결과를 표시 할 수 있습니다 (어쨌든 쓰기에 포함).
잠금 해제

코드 주셔서 감사합니다. 내가 그것을 실행했을 때 결과는 부트 스트랩 된 LRT가 관찰 된 것보다 크지 않기 때문에 임의의 영향이나 원래의 변수
없이도 작품에 충실 할 수있다

@ MudPhud : 오류가 발생 했습니까? 입력 lrt.sim이 모두 0이 아닌지 확인하십시오 lme4. 이 경우 패키지를 설치 하지 않은 것이 가장 큰 원인 일 수 있습니다 .
잠금 해제

그것들은 0이 아니며 관측 된 (63.95)에 비해 매우 작습니다 (~ 1e-6).
MudPhud

2

lme 기능을 사용할 때 어떤 모델이 적합한 지 알 수 없습니다. (임의의 효과가 평균이 0 인 정규 분포를 따라야한다고 생각합니까?). 그러나 임의 효과의 분산이 0 일 때 선형 모형은 혼합 모형의 특수한 경우입니다. 이 분산에 대한 모수 공간의 경계에 있기 때문에 일부 기술적 어려움이 있지만 vs 을 테스트 할 수 있어야합니다 .0H0:variance=0H1:variance>0

편집하다

혼동을 피하기 위해 : 위에서 언급 한 테스트는 때때로 랜덤 효과가 중요한지 여부를 결정하는 데 사용되지만 고정 효과로 변환해야하는지 여부를 결정하지 않습니다.


문제는 변수가 혼합 효과 또는 랜덤 효과로 모델링되어야하는지 여부를 결정하기위한 테스트가 있습니까? 그렇지 않으면 설명 한 테스트를 수행 한 다음 카이 제곱 dist로 테스트 할 수 있습니다 (적절한 테스트가 무엇인지 잘 모르겠습니다).
MudPhud

2
@MudPhud : 연구를 계획 할 때 변수를 고정 또는 랜덤 효과로 모델링하는 것은 실제로 분석 전에 결정해야합니다. 특히 결론의 범위에 달려 있습니다. 랜덤 효과는 일반성을 향상시킵니다. 또한 기술적 어려움을 피할 수 있습니다. 예를 들어, 수준이 많은 범주 형 변수가 고정 변수로 간주되는 경우와 같이 매개 변수 수가 증가하면 무증상이 손상 될 수 있습니다.
ocram

나는 동의하지만 PI에 이것을 설명하려고 할 때 그는 돌아 서서 어떤 종류의 p- 값을 요구했습니다. 필자는이 분석을 원고에 포함시키고 싶지만,보다 구체적인 근거가 없다면 분석을하지 않을 것입니다.
MudPhud

1
@ MudPhud : 내가 아는 한, 그러한 결정에 대한 p- 값은 없습니다. 관심이 선택된 특정 수준의 영향에 집중되면 고정 된 것으로 간주해야합니다. 이용 가능한 요인 수준이 더 많은 모집단의 무작위 표본으로 간주되고 더 많은 모집단에 대한 추론이 필요한 경우 효과는 무작위 여야합니다.
ocram
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.