답변:
BLUP에서 얻은 값은 BLUE 고정 효과의 추정치와 같은 방식으로 추정되지 않습니다. 관례 상 BLUP은 예측 . 혼합 효과 모형을 적합화할 때 초기에 추정되는 것은 랜덤 효과의 평균 및 분산 (및 공분산)입니다. 주어진 학습 단위 (예 : 학생)에 대한 랜덤 효과는 추후 평균과 분산, 데이터로부터 계산됩니다. 단순 선형 모형에서는 평균이 추정되지만 (잔차 분산은 그대로) 관측 된 점수는 임의 변수 인 오류와 오류로 구성된 것으로 간주됩니다. 혼합 효과 모델에서, 주어진 단위에 대한 효과는 마찬가지로 임의의 변수입니다 (어떤 의미에서는 이미 실현되었지만).
원하는 경우 이러한 단위를 고정 효과로 취급 할 수도 있습니다. 이 경우 해당 장치의 매개 변수는 평소대로 추정됩니다. 그러나 그러한 경우, 단위가 도출 된 모집단의 평균 (예를 들어)은 추정되지 않습니다.
또한 임의 효과의 배후는 일부 모집단에서 무작위로 추출한 것으로 가정하고 관심있는 인구입니다. 고정 효과의 기본 가정은 해당 단위 만 관심이있는 단위이기 때문에 의도적으로 해당 단위를 선택한 것으로 가정합니다.
혼합 효과 모델을 돌아서 맞추고 동일한 효과를 예측하면 고정 효과 추정치와 비교하여 모집단 평균에 대해 '줄어드는'경향이 있습니다. 추정 평균과 분산이 정규 사전을 지정하고 BLUP이 데이터를 이전과 최적으로 결합하여 오는 사후의 평균과 같은 베이지안 분석과 유사하다고 생각할 수 있습니다.
수축량은 몇 가지 요인에 따라 다릅니다. 랜덤 효과 예측이 고정 효과 추정치로부터 얼마나 멀어 질지에 대한 중요한 결정은 오차 효과에 대한 랜덤 효과의 분산 비율입니다. 다음은 R
수단 (절편) 만 맞는 5 개의 '수준 2'단위를 사용하는 가장 간단한 경우에 대한 간단한 데모입니다. (이것은 수업 내 학생들의 시험 점수로 생각할 수 있습니다.)
library(lme4) # we'll need to use this package
set.seed(1673) # this makes the example exactly reproducible
nj = 5; ni = 5; g = as.factor(rep(c(1:nj), each=ni))
##### model 1
pop.mean = 16; sigma.g = 1; sigma.e = 5
r.eff1 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff1, each=ni) + error
re.mod1 = lmer(y~(1|g))
fe.mod1 = lm(y~0+g)
df1 = data.frame(fe1=coef(fe.mod1), re1=coef(re.mod1)$g)
##### model 2
pop.mean = 16; sigma.g = 5; sigma.e = 5
r.eff2 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff2, each=ni) + error
re.mod2 = lmer(y~(1|g))
fe.mod2 = lm(y~0+g)
df2 = data.frame(fe2=coef(fe.mod2), re2=coef(re.mod2)$g)
##### model 3
pop.mean = 16; sigma.g = 5; sigma.e = 1
r.eff3 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff3, each=ni) + error
re.mod3 = lmer(y~(1|g))
fe.mod3 = lm(y~0+g)
df3 = data.frame(fe3=coef(fe.mod3), re3=coef(re.mod3)$g)
따라서 오차 분산에 대한 랜덤 효과의 분산 비율은 1/5의 model 1
경우 5/5, 5/5의 경우 model 2
5/1입니다 model 3
. 레벨을 사용한다는 것은 고정 효과 모델의 코딩을 의미합니다. 이제 우리는 추정 된 고정 효과와 예측 된 랜덤 효과가이 세 가지 시나리오에서 어떻게 비교되는지 조사 할 수 있습니다.
df1
# fe1 re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897
df2
# fe2 re2
# g1 10.979130 11.32997
# g2 13.002723 13.14321
# g3 26.118189 24.89537
# g4 12.109896 12.34319
# g5 9.561495 10.05969
df3
# fe3 re3
# g1 13.08629 13.19965
# g2 16.36932 16.31164
# g3 17.60149 17.47962
# g4 15.51098 15.49802
# g5 13.74309 13.82224
고정 효과 추정치에 더 가까운 랜덤 효과 예측으로 끝나는 또 다른 방법은 더 많은 데이터가있을 때입니다. model 1
랜덤 효과 분산에 대한 오차 분산의 비율이 낮은 위와 model 1b
동일한 비율을 갖지만 더 많은 데이터 ( ni = 500
대신에 유의) 를 갖는 버전 ( )과 비교할 수 있습니다 ni = 5
.
##### model 1b
nj = 5; ni = 500; g = as.factor(rep(c(1:nj), each=ni))
pop.mean = 16; sigma.g = 1; sigma.e = 5
r.eff1b = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff1b, each=ni) + error
re.mod1b = lmer(y~(1|g))
fe.mod1b = lm(y~0+g)
df1b = data.frame(fe1b=coef(fe.mod1b), re1b=coef(re.mod1b)$g)
효과는 다음과 같습니다.
df1
# fe1 re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897
df1b
# fe1b re1b
# g1 15.29064 15.29543
# g2 14.05557 14.08403
# g3 13.97053 14.00061
# g4 16.94697 16.92004
# g5 17.44085 17.40445
다소 관련이있는 메모에서 Doug Bates (R 패키지 lme4의 저자)는 "BLUP"이라는 용어를 좋아하지 않고 대신 "조건부 모드"를 사용합니다 (lme4 book pdf 초안 22-23 페이지 참조 ). 특히, 1.6 절에서 "BLUP"은 선형 혼합 효과 모델 에만 의미있게 사용될 수 있다고 지적 합니다.