관측치가 독립적이지 않은 경우 잘못된 추론


13

나는 기본적인 선형 모델에서 추론이 유효하기 위해서는 관측이 독립적이어야한다는 기초 통계에서 배웠다. 클러스터링이 발생하면이를 고려하지 않는 한 더 이상 독립성이 더 이상 유효하지 않은 추론으로 이어질 수 없습니다. 이러한 클러스터링을 설명하는 한 가지 방법은 혼합 모델을 사용하는 것입니다. 시뮬레이션 여부에 관계없이 예제 데이터 세트를 찾고 싶습니다. 클러스터 된 데이터를 분석하기 위해 UCLA 사이트 에서 샘플 데이터 세트 중 하나를 사용해 보았습니다.

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

내가 빠진 것이 아닌 한,이 결과는 출력 lm()이 유효하지 않다고 생각할 정도로 유사 합니다. 다른 예제 (예 : Bristol University Center for Multilevel Modeling의 5.2)를 보았고 표준 오류도 크게 다르지 않다는 것을 알았습니다 (혼합 모델의 임의 효과 자체에는 관심이 없지만 혼합 모델 출력의 ICC는 0.42입니다.

따라서 내 질문은 1) 클러스터링이 발생할 때 표준 오류가 현저하게 다른 조건 하에서 2) 누군가가 그러한 데이터 세트의 예를 제공 할 수 있습니까 (시뮬레이션 여부).


클러스터링의 의미를 확장 할 수 있습니까?
bayerj

클러스터링에 의한 @bayerj는 서로 비슷한 관측치가 어떤 종류의 단위 내에서 함께 그룹화 될 때를 의미합니다.
Joe King

답변:


11

우선,이 데이터 세트가 혼합 모델을 이해하는 것이 가장 좋지 않을 수도 있습니다. 하지만 왜 먼저 보자

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

310 개의 관측치와 187 개의 그룹이 있으며 그 중 132 개에는 하나의 관측치 만 있습니다. 이것은 다중 레벨 모델링을 사용해서는 안된다는 것을 의미하는 것이 아니라, 명시된 바와 같이 결과가 크게 다르지 않다는 것을 의미합니다.

다단계 모델링 동기

다단계 모델링을 사용하려는 동기는 수행 된 분석 결과 만이 아니라 디자인 자체에서 시작됩니다. 물론 가장 일반적인 예는 개인으로부터 여러 번 관찰을하는 것이지만 상황을보다 쉽게 ​​이해하기 위해 상황을 더욱 극단적으로 만들려면 전 세계 여러 나라의 개인에게 그들의 소득에 대해 물어보십시오. 가장 좋은 예는 물론 이질성이 많은 예입니다. 물론 검사 결과에서 균질 한 클러스터를 사용하면 큰 차이가 없습니다.

따라서 데이터를 더 명확하게하기 위해 일부 데이터를 시뮬레이션 해 봅시다. 실제 데이터와 달리 시뮬레이션이 더 명확하지 않습니다. 개 국가를 선택하고 각 국가에서 개인 에게 소득과 계수 소득에 긍정적 인 영향을 미치는 다른 것에 대해 문의 한다고 상상해보십시오 .100 0.510100yx0.5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

따라서 선형 모델을 실행하면

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

x통계적 영향이 없다고 결론지었습니다 y. 표준 오차가 얼마나 큰지 확인하십시오. 그러나 임의 절편 모델 실행

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

추정치의 표준 오차가 얼마나 변했는지 확인할 수 있습니다. 랜덤 효과 부분을 살펴보면 변동성이 어떻게 분해되었는지 알 수 있습니다. 소득 변동의 대부분은 국가 간이며 국가 내에서 더 많은 소득을 가진 국가입니다. 간단히 말해서, 여기에서 일어난 일은 클러스터링을 설명하지 않는 x것이 "잃어버린 것"(우리가 이런 종류의 용어를 사용할 수있는 경우)이지만, 실제로 얻을 수있는 변수를 분해한다는 것입니다.


+1 감사합니다. 훌륭합니다. 클러스터링을 설명하지 않으면 SE가 일반적으로 더 작다는 것을 여러 번 읽은 것을 기억하지만 선형 모델이 너무 작은 SE를 반환하는 시나리오는 무엇입니까?
Joe King

@JoeKing 이것은 다중 레벨 모델링이 아닌 클러스터 된 강력한 SE에 해당됩니다. ats.ucla의 페이지에서 데이터를 가져 왔습니다.
Steve

@JoeKing의 차이점을 완전히 이해하려면 stats.stackexchange.com/questions/8291/…
Steve
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.