나는 기본적인 선형 모델에서 추론이 유효하기 위해서는 관측이 독립적이어야한다는 기초 통계에서 배웠다. 클러스터링이 발생하면이를 고려하지 않는 한 더 이상 독립성이 더 이상 유효하지 않은 추론으로 이어질 수 없습니다. 이러한 클러스터링을 설명하는 한 가지 방법은 혼합 모델을 사용하는 것입니다. 시뮬레이션 여부에 관계없이 예제 데이터 세트를 찾고 싶습니다. 클러스터 된 데이터를 분석하기 위해 UCLA 사이트 에서 샘플 데이터 세트 중 하나를 사용해 보았습니다.
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
내가 빠진 것이 아닌 한,이 결과는 출력 lm()
이 유효하지 않다고 생각할 정도로 유사 합니다. 다른 예제 (예 : Bristol University Center for Multilevel Modeling의 5.2)를 보았고 표준 오류도 크게 다르지 않다는 것을 알았습니다 (혼합 모델의 임의 효과 자체에는 관심이 없지만 혼합 모델 출력의 ICC는 0.42입니다.
따라서 내 질문은 1) 클러스터링이 발생할 때 표준 오류가 현저하게 다른 조건 하에서 2) 누군가가 그러한 데이터 세트의 예를 제공 할 수 있습니까 (시뮬레이션 여부).