그룹이 혼합 모형에서 랜덤 대 고정으로 취급 될 때 기울기 추정치에 큰 불일치

일부 모델 매개 변수가 일부 그룹화 요인에 따라 무작위로 변한다고 생각할 때 임의 효과 (또는 혼합 효과) 모델을 사용한다는 것을 알고 있습니다. 응답이 정규화되고 그룹화 요소 전체에서 중심이 (완벽하지는 않지만 꽤 가깝습니다) 모델을 맞추고 싶지만 독립 변수 x는 어떤 식으로도 조정되지 않았습니다. 이로 인해 다음과 같은 테스트 ( 제조 된 데이터 사용)를 통해 실제로 원하는 경우 내가 찾은 효과를 찾을 수 있는지 확인했습니다. 랜덤 인터셉트 (로 정의 된 그룹 간)가있는 혼합 효과 모델 하나 와 요인 f를 고정 효과 예측 변수로 사용 f하는 두 번째 고정 효과 모델을 실행했습니다. lmer혼합 효과 모델과 기본 기능에 R 패키지 를 사용했습니다.lm()고정 효과 모델의 경우 다음은 데이터와 결과입니다.

공지 사항 y에 관계없이 그룹의 주위 0 다릅니다 그리고 그것은, x함께 지속적으로 변화 y보다 그룹에서 더 많은 그룹 내에서, 그러나 변화y

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

데이터 작업에 관심이 있다면 다음과 같이 dput()출력됩니다.

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

혼합 효과 모델 맞추기 :

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000

절편 분산 성분은 0으로 추정되며, 중요한 것은 나에게 x중요한 예측 변수가 아니라는 점에 유의하십시오 y.

다음 f으로 임의의 절편에 대한 그룹화 요소 대신 예측 효과로 고정 효과 모델을 맞 춥니 다 .

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348

이제 예상 한대로 x의 중요한 예측 변수라는 것을 알았습니다 y.

내가 찾고있는 것은이 차이점에 관한 직관입니다. 내 생각이 어떻게 잘못 되었나요? 왜이 x두 모델에서 중요한 매개 변수를 찾을 것으로 예상 하지만 실제로 고정 효과 모델에서만 볼 수 있습니까?

— 은두 간
소스

RE = 0의 분산이 주어지면 임의 효과 설정에 문제가 있음을 신속하게 지적하고 싶습니다 (즉, RE는 변동이 없음을 설명합니다). 그 x변수가 중요 하지 않다는 것은 놀라운 일 이 아닙니다. 나는 그것이 당신이 달리는 것과 같은 결과 (계수와 SE)라고 생각합니다 lm(y~x,data=data). 진단 할 시간이 더 이상 없지만 이것을 지적하고 싶었습니다.

— Affine

@Affine 좋은 지적입니다. 그래서 나는 여기서 임의의 효과가 절편의 변화를 포착하지 못한 이유에 관심이 있다고 생각합니다. 당신이나 다른 사람이 나중에 의견을 가지고 있다면, 나는 그것을 환영합니다! 감사.

— ndoogan

답변:

여기에는 몇 가지 일이 있습니다. 이들은 흥미로운 문제이지만이를 모두 설명하려면 상당한 시간 / 공간이 필요합니다.

우선, 우리 가 데이터를 플롯하면 이 모든 것을 이해하기가 훨씬 쉬워집니다 . 다음은 데이터 포인트가 그룹별로 색상이 지정된 산점도입니다. 또한 각 그룹마다 별도의 그룹 별 회귀선과 그룹을 무시하는 간단한 회귀선이 굵은 체로 표시됩니다.

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

데이터

고정 효과 모델

$x$ $x$ $x$ $x$ $x$ $x$ $x$ $y$ $t$

$x$ $x$ $x$ lm()

혼합 모델

$x$ $x$ $x$ $x$

$x$

다음은 단순 회귀 모형에 대한 계수입니다 (플롯에서 굵은 선으로 표시).

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643

보시다시피, 여기의 계수는 혼합 모델에서 얻은 것과 동일합니다. 이미 언급했듯이 랜덤 인터셉트에 대한 분산이 0으로 추정되어 앞에서 언급 한 비율 / 클래스 내 상관 관계를 0으로 만듭니다.이 경우 혼합 모형 추정치는 간단한 선형 회귀 추정치이며, 플롯에서 볼 수 있듯이 여기의 기울기는 클러스터 내 기울기보다 훨씬 덜 두드러집니다.

이것은 우리에게 하나의 마지막 개념 문제를 가져옵니다 ...

랜덤 절편의 분산이 0으로 추정되는 이유는 무엇입니까?

이 질문에 대한 답은 약간 기술적이고 어려워 질 가능성이 있지만, 가능한 한 단순하고 비 기술적으로 유지하려고 노력할 것입니다 (두 가지 모두를 위해!). 그러나 그것은 여전히 약간 긴 바람 일 것입니다.

클래스 내 상관 관계의 개념을 앞서 언급했습니다. 이것은 의 의존성에 대해 생각하는 또 다른 방법입니다. $y$ 클러스터링 구조에 의해 유도 된 (또는보다 정확하게는 모델의 오류) 클래스 내 상관 관계는 데이터 집합의 어느 곳에서든 두 개의 오류의 평균 유사성 (즉, 동일한 클러스터에 있거나 없을 수 있음)과 비교하여 동일한 클러스터에서 가져온 두 개의 오류가 평균적으로 얼마나 비슷한 지 알려줍니다. 클래스 내부의 양의 상관 관계는 동일한 군집의 오류가 상대적으로 더 유사한 경향이 있음을 나타냅니다. 클러스터에서 하나의 오류를 발생시키고 값이 높으면 동일한 클러스터에서 다음에 발생하는 오류도 높은 값을 가질 가능성이 높습니다. 다소 덜 일반적이지만 클래스 내 상관도 음수 일 수 있습니다. 동일한 클러스터에서 발생하는 두 가지 오류는 일반적으로 데이터 집합 전체에서 예상되는 것보다 덜 유사합니다 (즉, 값이 더 떨어져 있음).

우리가 고려하고있는 혼합 모델은 데이터의 의존성을 나타내는 클래스 내 상관 방법을 사용하지 않습니다. 대신 분산 성분 에 대한 의존성을 설명합니다 . 클래스 내 상관 관계가 긍정적 인 한이 모든 것이 좋습니다. 이러한 경우, 클래스 내 상관 관계는 분산 성분의 관점에서 쉽게 작성할 수 있습니다. 구체적으로 앞에서 언급 한 랜덤 인터셉트 분산과 총 분산의 비율입니다. ( 클래스 내 상관 관계에 대한 위키 페이지 참조그러나 불행히도 분산 성분 모델은 클래스 내에서 음의 상관 관계가있는 상황을 처리하는 데 어려움을 겪습니다. 결국, 분산 성분 측면에서 클래스 내 상관 관계를 작성하려면이를 분산의 비율로 작성해야하며, 비율은 음수가 될 수 없습니다.

$y$ $y$ $y$ 그러나 다른 군집에서 발생하는 오류는 더 중간 정도의 차이가있는 경향이 있습니다. 따라서 혼합 모형은 실제로이 경우 종종 혼합 모형이 수행하는 작업을 수행합니다. 이는 클래스 내 음의 상관 관계와 일치하는 추정치를 제공합니다. 소집 할 수는 있지만 하한 0에서 멈 춥니 다 (이 구속 조건은 일반적으로 모델 피팅 알고리즘에 프로그래밍됩니다). 그래서 우리는 0으로 추정 된 랜덤 인터셉트 분산 (random intercept variance)으로 끝납니다. 이것은 여전히 좋은 추정치가 아니지만,이 분산 성분 유형의 모델로 얻을 수있는만큼 가깝습니다.

그래서 우리가 뭘 할 수 있지?

$x$

$x$ $x_b$ $x$ $x_w$ $x$

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

$x_w$ $x_b$ $y$ $x$ $x$ $x_b$ $t$ 통계가 더 큽니다. 단순 혼합 회귀 모형이 처리해야하는 분산을 많이 차지하는 랜덤 그룹 효과로 인해이 혼합 모형에서 잔차 분산이 훨씬 더 작기 때문에 이는 놀라운 일이 아닙니다.

마지막으로, 이전 절에서 자세히 설명한 이유로 인해 임의 절편의 분산에 대한 추정치는 여전히 0입니다. 나는 다른 소프트웨어로 바꾸지 않고 적어도 하나에 대해 우리가 무엇을 할 수 lmer()있는지 잘 모르겠으며,이 최종 혼합 모델의 추정치에 여전히 악영향을 미칠 정도가 확실하지 않습니다. 어쩌면 다른 사용자 가이 문제에 대한 몇 가지 생각을 할 수 있습니다.

참고 문헌

Bell, A., & Jones, K. (2014). 고정 효과 설명 : 시계열 단면 및 패널 데이터의 랜덤 효과 모델링.정치 연구 및 방법. PDF
Bafumi, J., & Gelman, AE (2006). 예측 변수와 그룹 효과가 서로 연관 될 때 다중 레벨 모델을 적합합니다. PDF

— 제이크 웨스트 폴
소스

이것은 매우 사려 깊고 유용한 답변입니다. 나는이 언급들을 보지 못했다. 그들의 제목은 나의 탐험에서이 시점에서 필독서로 필자에게 타격을 준다. 나는 당신에게 맥주를 빚지고 있습니다!

— ndoogan

Bell & Jones 심판은 위대했습니다. 내가 기다리고 있었고 한 가지 힌트가있을 수있는 것은 이러한 중간 간격이 일반 선형 혼합 모형으로 쉽게 확장되는지 여부 입니다. 그들이해야 할 것처럼 보이지만, 로지스틱 회귀 모델을 중심으로 한 공변량은 조건부 로지스틱 모델과 같지 않다는 것을 이해했습니다. 이는 고정 효과 선형 모델에 대한 이진 결과 아날로그입니다. 다른하실 말씀 있나요?

— ndoogan

한계 모델을 적합하지 않으면 마이너스 분산이 허용됩니다.lme 기본적으로> = 0으로 구속되는 됩니까? 참조 이 질문의 선택 대답 스루 화합물 simmetry의 상관 관계를 피팅, 즉, gls크기, 설정 correlation = corCompSymm(form = ~1|f)에서lme

— FairMiles

@FairMiles 아마도 ... 당신은 그것을 시도 하고이 코멘트 스레드에 결과를 게시하지 않습니까?

— Jake Westfall

다시 한번 감사합니다, @JakeWestfall. 나는 몇 개월 동안 이것을 약 3 번 읽었으며 매번 다양한 방법으로 도움을 받았습니다.

— ndoogan

상당한 숙고 끝에, 나는 내 자신의 답을 찾았다 고 믿는다. 나는 계량 경제학자가 내 독립 변수를 내인성으로 정의하여 독립 변수 와 종속 변수 모두와 상관 관계가 있다고 생각 합니다. 이 경우 해당 변수는 생략 되거나 관찰되지 않습니다 . 그러나 생략 된 변수가 달라야하는 그룹화를 관찰합니다.

나는 계량 경제학자가 고정 효과 모델을 제안 할 것이라고 믿는다 . 즉,이 경우 모든 그룹화 레벨에 대한 더미 (또는 많은 그룹화 인형이 필요하지 않도록 모델을 조정하는 동등한 사양)가 포함 된 모델입니다. 고정 효과 모델을 사용하면 그룹 전체 (또는 개별) 변동을 조정하여 관찰되지 않고 시간이 변하지 않는 모든 변수를 제어 할 수 있습니다. 실제로, 제 질문의 두 번째 모델은 정확히 고정 효과 모델이며, 따라서 내가 기대하는 추정치를 제공합니다.

이 상황을 더욱 밝게 해줄 의견을 환영합니다.

— 은두 간
소스