왜 랜덤 슬로프 효과가 슬로프의 SE를 확대 시켰습니까?


9

특정 그룹의 개인 (3 개의 그룹이 있음)에 대한 가변 로그인에 대한 Year의 효과를 분석하려고합니다. 가장 간단한 모델 :

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

Group1은 크게 감소하고 Groups2와 3은 증가하지만 크게 증가하지는 않습니다.

분명히 개인은 무작위 효과가 있어야하므로 각 개인에게 무작위 차단 효과를 도입합니다.

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

예상 효과가 나타났습니다. 슬로프의 SE (계수 그룹 1-3 : 연도)는 이제 낮아지고 잔차 SE도 낮아집니다.

개인도 경사가 다르므로 임의 경사 효과를 소개했습니다.

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

그러나 이제 예상과 달리 경사면의 SE (계수 그룹 1 : 3 : 연도)는 이제 임의 효과가 전혀없는 것보다 훨씬 높습니다!

이것이 어떻게 가능한지? 랜덤 효과는 설명 할 수없는 변동성을 "먹고"추정치의 "확실성"을 증가시킬 것으로 기대합니다!

그러나 잔차 SE는 예상대로 작동합니다. 이는 임의 절편 모델보다 낮습니다.

필요한 경우 데이터는 다음과 같습니다 .

편집하다

이제 나는 놀라운 사실을 깨달았습니다. 각 개인에 대해 선형 회귀 분석을 수행 한 다음 결과 슬로프에서 분산 분석을 실행 하면 랜덤 슬로프 모델과 정확히 동일한 결과를 얻습니다! 왜 그런지 아십니까?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

필요한 경우 데이터는 다음과 같습니다 .


1 년 : 그룹 상호 작용 고정 효과를 사용하려면 1 년 고정 효과가 필요합니다. 일반적으로 주요 효과를 포함하지 않고 상호 작용 용어를 포함 할 수 없습니다. 연도 효과에 고정 구성 요소가 없다고 생각하십니까? 그렇다면 어떻게 고정 년 : 그룹 상호 작용이있을 수 있습니까?
John

그리고 왜 고정 요격이 없습니까? 고정 및 랜덤을 모두 가질 수 있습니다.
John

@ 존,이 모델은 완전히 유효합니다. 이것은 범주 형 변수의 원하는 코딩 문제 일뿐입니다. 이런 식으로 는 Group 의 절편 이며 는 Group 내의 기울기 입니다. Year와 절편의 주요 효과가 포함되면 추정치는 Group 와 Group 1 의 절편 차이 와 마찬가지로 기울기와 유사합니다. GroupiiGroupi:Yearii
Aniko

@ John, 그럼에도 불구하고 이것은 내 질문의 주제가 아닙니다. 믿습니다. 이것은 괜찮습니다. 많은 실험을했습니다. 내 첫 작품은 완전히 등가 logInd ~ Year*Group이며, 계수 만 다른 모양이며 더 이상 없습니다. 취향과 좋아하는 계수의 모양에 따라 다릅니다. 당신이 쓰는 첫 번째 모델에서 "Year main effect"는 배제 logInd ~ Year*Group되지 않습니다. 정확히 같은 것을 수행하면 Year계수는 주된 효과가 아니라 Group1 : Year입니다.
Curious

OK, 깔끔하게, 0 개의 가로 채기 Group을 범주 형으로 간주하지 않았습니다 .
John

답변:


11

난 당신이 각 개인을 위해 임의의 절편을 추가 할 때의 표준 오차 것으로 기대가 :) 참고로 문제가 생각 차단이 증가했다. 각 개인은 자신의 요격을 가질 수 있으므로 그룹 평균은 확실하지 않습니다. 랜덤 슬로프에서도 같은 일이 발생했습니다. 더 이상 하나의 공통 (그룹 내) 슬로프를 추정하는 것이 아니라 다양한 슬로프의 평균을 추정합니다.

편집 : 더 나은 모델이 더 정확한 견적을 제공하지 않는 이유는 무엇입니까?

다른 방법으로 생각해 보자. 왜 초기 모델이 표준 오차를 과소 평가합니까? 독립적이지 않은 관측치의 독립성을 가정합니다. 두 번째 모델은이 가정 (요격에 영향을주는 방식으로)을 완화하고 세 번째 모델은이를 더 완화합니다.

편집 2 : 많은 환자 별 모델과의 관계

관찰 결과는 알려진 속성입니다 (만약 2 년이 지난 경우 랜덤 효과 모델은 쌍을 이루는 t- 검정과 같습니다). 나는 진짜 증거를 관리 할 수 ​​있다고 생각하지 않지만 아마도 두 모델을 작성하면 관계가 더 명확해질 것입니다. 표기법이 복잡해 지므로 그룹화 변수를 무시합시다. 랜덤 효과에는 그리스 문자를 사용하고 고정 효과에는 라틴 문자를 사용합니다.

랜덤 효과 모델은 ( 주제, 주제 내에서 복제)입니다 : 여기서 및 .ij

Yij=a+αi+(b+βi)xij+ϵij,
(αi,βi)N(0,Σ)ϵijN(0,σ2)

각 주제에 대해 별도의 모델을 적합하면 에서 입니다.

Yij=ai+bixij+ϵij,
ϵijN(0,σi2)

[참고 : 다음은 실제로 손으로 바르는 것입니다.]

및 ~ 해당하는 를 사용 두 모델간에 많은 유사점을 볼 수 있습니다 . 랜덤 효과의 평균이 0이기 때문에 의 평균은 해당 합니다. 랜덤 절편과 기울기의 구속되지 않은 상관 관계는 모델을 개별적으로 장착 할 수 있다는 사실로 이어집니다. 단일 가정이 주제별 와 어떻게 메쉬 되는지 확실하지 않지만 가 차이점을 선택 한다고 가정합니다 .aia+αibib+βibibσσiαi


감사합니다. 네 말이 맞아, 내 계산은 그것을 확인하지만, 왜 그런지 알고 싶다 ... 그것은 직관적이지 않은 것처럼 보인다. 모델을 개선했습니다. 임의의 효과를 도입하여 오류 구조를 더 잘 설명했습니다. 잔차 오류가 확인-낮고 낮습니다. 따라서이 더 정확하고 정확한 모델을 사용하면 더 정확한 경사를 기대할 수 있습니다. 어딘가에 잘못되었다는 것을 알고 있습니다.
Curious

감사합니다 Aniko, 그것은 흥미로운 관점입니다! 난 여기에 가로 채지 말고 슬로프 (Group * : Year)에만 관심이 있습니다. 그래서 임의 itcept 효과를 도입하는 첫 번째 단계는 독립 가정을 완화하고 SE .. 아마 너무 많았 을까 (?) 반대로 (심지어 더 나쁜 SE ..) .. 어쩌면 그것에 대해 생각할 필요가 있습니다. 감사합니다.
Curious

이제 나는 또한 매우 흥미로운 사실에 놀랐습니다. 편집 내용을 참조하십시오. 왜 그런지 아십니까?
Curious

나는 독립 가정이 너무 이완되었다고 생각하지 않습니다! 시작하는 것이 잘못되었습니다.
Aniko

3
"정확한"모델 인 Tomas는 추정이 더 정확하다는 것을 의미하지는 않습니다. 극단적 인 예로, 모든 반응이 0임을 예측하는 모델과 같이 원하는 데이터가없는 모델을 선택하십시오. 이 모델은 추정치 0에서 절대적으로 확실 합니다. 따라서 가능한 한 정확하지만 가능한 한 잘못되었을 수도 있습니다. 따라서 모델에 매개 변수에 맞게 더 큰 범위를 부여하면 일반적으로 해당 매개 변수가 정밀하게 맞지 않습니다. 더 나쁜 모델은 더 나쁜 모델로 포착되지 않은 불확실성을 정량화 할 수 있기 때문에 종종 표준 오차가 더 큽니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.