관측치가 1 인 랜덤 효과는 일반 선형 혼합 모형에 어떤 영향을 줍니까?


14

임의 효과로 사용하려는 변수에 일부 수준에 대한 단일 관측치 만있는 데이터 세트가 있습니다. 이전 질문에 대한 답변을 바탕으로 원칙적으로 이것이 좋을 수 있다는 것을 모았습니다.

관측치가 1 개인 피사체에 혼합 모델을 적용 할 수 있습니까?

무작위 절편 모델-대상 당 하나의 측정

그러나 두 번째 링크에서 첫 번째 답변은 다음과 같습니다.

"...이 경우과 분산 문제가 발생 하는 일반화 된 선형 혼합 모델 GLMM을 사용하지 않는다고 가정 "

GLMM 사용을 고려하고 있지만, 단일 관측치의 임의 효과 수준이 모델에 어떤 영향을 미치는지 실제로 이해하지 못합니다.


다음은 내가 맞추려고하는 모델 중 하나의 예입니다. 나는 새를 연구하고 있는데, 이주 동안 정지 횟수에 대한 인구와 계절의 영향을 모델링하고 싶습니다. 일부 개인의 경우 최대 5 년의 데이터가 있기 때문에 개인을 임의의 효과로 사용하고 싶습니다.

library(dplyr)
library(lme4)
pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA"))
id <- "2 2 4 4 7 7 9 9 10 10 84367 84367 84367 84368 84368 84368 84368 84368 84368 84369 84369 33073 33073 33073 33073 33073 33073 33073 33073 33073 80149 80149 80149 80150 80150 80150 57140 57141 126674 126677 126678 126680 137152 137152 137157 115925 115925 115925 115925 115925 115925 115925 115925 115926 115926 115926 115926 115926 115926 115927 115928 115929 115929 115929 115930 115930 115930 115930 115931 115931 115931 115932 115932 115932"
id <- strsplit(id, " ")
id <- as.numeric(unlist(id))
year <- "2014 2015 2014 2015 2014 2015 2014 2015 2014 2015 2009 2010 2010 2009 2010 2010 2011 2011 2012 2009 2010 2009 2009 2010 2010 2011 2011 2012 2012 2013 2008 2008 2009 2008 2008 2009 2008 2008 2013 2013 2013 2013 2014 2015 2014 2012 2013 2013 2014 2014 2015 2015 2016 2012 2013 2013 2014 2014 2015 2013 2012 2012 2013 2013 2012 2013 2013 2014 2013 2014 2014 2013 2014 2014"
year <- strsplit(year, " ")
year <- as.numeric(unlist(year))
season <- as.character(c("fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "fall", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "spring", "spring","fall", "fall", "spring", "fall", "fall", "spring"))
stops <- "0 0 0 0 0 0 1 0 2 1 1 0 0 3 2 0 1 1 0 1 1 2 0 1 0 2 0 4 0 0 2 1 1 2 5 2 1 0 9 6 2 3 4 7 2 0 0 0 0 0 2 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 0 0"
stops <- strsplit(stops, " ")
stops <- as.numeric(unlist(stops))

stopdata <- data.frame(pop = pop, id = id, year = year, season = season, stops = stops, stringsAsFactors = FALSE)


stopdata <- group_by(stopdata, pop, id)
summary1 <- summarise(stopdata, n.years = length(year))
table(summary1$n.years)

27 명이 있습니다. 9 명의 개인이 단일 관찰을합니다. 18 명의 개인이 2-9 번 관찰했습니다.

랜덤 효과 레벨의 1/3에 하나의 관측치 만있는 경우 어떻게주의해야합니까?


나는 고려하고있다 :

옵션 1 : 위에서 설명한 GLMM

stops.glmm <- glmer(stops ~ pop + season + (1|id), data=stopdata, family = poisson)

옵션 2 : 다중 관측치가있는 개인을위한 수단을 사용하는 가중 일반화 선형 모형 GLM

aggfun <- function(data, idvars=c("pop", "season", "id"), response){
#select id variables, response variable, and year
sub1 <- na.omit(data[,c(idvars, "year", response)])
#aggregate for mean response by year
agg1 <- aggregate(sub1[names(sub1) == response],by=sub1[idvars],FUN=mean)
#sample size for each aggregated group
aggn <- aggregate(sub1[response],by=sub1[idvars],FUN=length)
#rename sample size column
names(aggn)[4] <- "n"
agg2 <- merge(agg1, aggn)
agg2}


#Create weighted dataset
stops.weight <- aggfun(data = stopdata, response = "stops")
stops.weight$stops <- round(stops.weight$stops)

#Weighted GLM
stops.glm <- glm(stops~pop + season, data=stops.weight, family = poisson, weights = n)

견적의 출처는 어디입니까? 해당 답변을 찾을 수 없습니다.
아메바는

두 번째 링크, 첫 번째 답변, 괄호
canderson156

3
짧은 답답하지 않은 답변 : 나는 아무런 문제가 없을 것이라고 생각합니다. 위에 링크 된 두 번째 질문에 대한 첫 번째 답변자가 무엇을 의미하는지 정확히 모르십시오 : (응답 담당자가 충분한 경우) 의견을 남기는 것을 고려해 보셨습니까? 그룹당 정확히 1 개의 관측 값을 갖는 한계에서 그룹 간 및 잔차 변동성이 완전히 혼란됩니다. 당신이이 있다면 나는 혼합 모델을 귀찮게하지 않을 수 있습니다 소수 > 1 명 관찰과 그룹 (및 해당 그룹에서 적은 수의), 그러나 귀하의 경우 소리의 미세한 ...
벤 Bolker

두 번째 옵션 (가중 Poisson)이 실제로 올바르게 작동하는지 확실하지 않지만 더 신중하게 생각해야합니다.
벤 볼커

@BenBolker> 1 개의 관측치가있는 소수의 그룹 만있는 경우, 설명 할 때 무엇을 하시겠습니까?
mkt-Reinstate Monica

답변:


3

일반적으로 식별 가능성에 문제가 있습니다. 측정 값이 하나 인 매개 변수에 랜덤 효과가 할당 된 선형 모델은 랜덤 효과와 잔차 오차를 구별 할 수 없습니다.

일반적인 선형 혼합 효과 방정식은 다음과 같습니다.

이자형=β+η나는+ϵ제이

βη나는나는ϵ제이제이ηϵηϵ에스(η)에스(ϵ)V아르 자형(η)+V아르 자형(ϵ)

에스(η)에스(ϵ)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.