이 두 회귀 모형의 근본적인 차이점은 무엇입니까?


10

중요한 상관 관계가있는 이변 량 반응이 있다고 가정합니다. 이 결과를 모델링하는 두 가지 방법을 비교하려고합니다. 한 가지 방법은 두 결과 간의 차이를 모델링 할 수있다 : 또 다른 방법을 사용하는 것 또는 이를 모델링 : ( Y I의 J = β 0 + 시간 + X ' β )

(yi2yi1=β0+Xβ)
glsgee
(yij=β0+time+Xβ)

다음은 foo 예입니다.

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

fit1fit2fit2fit3p


7
fit1과 fit3의 차이점을 때때로 주님의 역설이라고합니다. 몇 가지 논의 (모델 간 추정치가 변경되지 않는 이유)와 Paul Allison 기사 ( stats.stackexchange.com/a/15759/1036 )에 대한 참조는 여기를 참조하십시오 . 또 다른 참조Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
Andy W

답변:


1

먼저 답변에 대한 토론을위한 네 번째 모델을 소개하겠습니다.

적합 1.5 <-lm (y_2 ~ x_1 + x_2 + y_1)

Part 0
fit1과 fit1.5의 차이는 제한 차이와 최적 차이의 차이로 가장 잘 요약됩니다.

y2=b0+b1·x+b2·y1
b2
y2b2·y1=b0+b1·x
y

b2=1

y2y1=b0+b1·x

xy1y2t


y=b0+b1·x+b2·t
t=0y1t=1y2
y1=b0+b1·xy2=b0+b1·x+b2
y2y1=b2b2b2y

Part 2
그렇다면 fit2 모델과 fit3 모델의 차이점은 무엇입니까? fit3 모델은 오차 항의 상관 관계를 설명하지만 추정 프로세스 만 변경하므로 두 모델 출력 간의 차이는 최소화됩니다 (fit3이 자기 회귀 계수를 추정한다는 사실을 제외하고).

Part 2.5
그리고 저는이 토론에서 또 하나의 모델을 더 포함 할 것입니다

fit4 <-lmer (y ~ 시간 + x1 + x2 + (1 | id), data = df.long)

y

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.