ID 링크가있는 OLS 및 Poisson GLM


11

내 질문은 포아송 회귀와 GLM에 대한 전반적인 이해가 부족하다는 것을 보여줍니다. 내 질문을 설명하기 위해 가짜 데이터가 있습니다.

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

psuedo-R2를 리턴하는 일부 사용자 정의 함수 :

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

4 가지 모델에 적합 : OLS, ID 링크가있는 가우시안 GLM, 로그 링크가있는 Poisson GLM, ID 링크가있는 Poisson GLM

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

마지막으로 예측을 플로팅하십시오.

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

두 가지 질문이 있습니다.

  1. 아이덴티티 링크를 가진 OLS 및 가우시안 GLM에서 나오는 계수와 예측은 정확히 동일합니다. 이것이 항상 사실입니까?

  2. OLS 추정 및 예측이 ID 링크가 있는 Poisson GLM과 매우 다르다는 사실에 매우 놀랐습니다 . 두 가지 방법 모두 E (Y | X)를 추정하려고한다고 생각했습니다. 포아송에 신원 링크를 사용할 때 우도 기능은 어떻게 생깁니 까?



1
항등 링크를 사용하여 포아송 모형을 근사하기 위해 최소 제곱을 수행하려는 경우 가중치가 적용된 최소 제곱 모형, mdl.wols = lm (y ~ x, weights = 1 / log (y + 1.00000000001))을 적용 할 수도 있습니다. (y + 1.00000000001)은 분산의 첫 번째 추정치 (sqrt (y + 1E-10))로도 작동합니다. 이러한 모델의 추정치는 식별 링크가있는 Poisson GLM의 추정치와 매우 유사합니다 ...
톰 Wenseleers

답변:


14
  1. 예, 같은 것입니다. Gaussian의 MLE은 최소 제곱이므로 ID 링크로 Gaussian GLM을 수행하면 OLS를 수행하는 것입니다.

  2. a) " 두 방법 모두 E (Y | X)를 추정하려고했습니다. "

    실제로, 그들은하지만 조건부 기대가 데이터의 함수로 추정되는 방식은 동일하지 않습니다. 분포를 무시하고 (따라서 데이터가 어떻게 가능성에 진입하는지) 평균과 분산 (가중 가중 회귀처럼)으로 GLM에 대해 생각하더라도 포아송의 분산은 평균과 함께 증가합니다. 관측치에 대한 상대적 가중치는 다를 수 있습니다.

    b) " 포아송에 신원 링크를 사용할 때의 우도 기능은 어떻게 보입니까? "

    (β0,β1)=나는이자형λ나는λ나는와이나는/와이나는!

    =특급(나는λ나는+와이나는로그(λ나는)로그(와이나는!)) 여기서λ나는=β0+β1엑스나는

    =특급(나는(β0+β1엑스나는)+와이나는로그(β0+β1엑스나는)로그(와이나는!))


4
Glen_b의 두 번째 요점에 대한 설명. 내가 분명히 말한 한 가지 이야기는, 포아송 모델에서 추정 조건부 평균이 커짐에 따라 모델 이 조건부 평균에서 멀리 떨어진 데이터 값에 더 관대 하다는 것입니다. 조건부 평균이 무엇이든 추정 되더라도 일관되게 허용되는 직선형 모형과 이것을 대조하십시오.
Matthew Drury

@Glen_b, "따라서 데이터가 어떻게 가능성에 진입하는지"라고 말한 것을 분명히 해달라고 부탁 할 수 있습니다. MLE을 사용하여 피팅 할 때 모델 적합 가능성이 OLS와 POisson (링크 = 동일성)간에 다름을 의미합니까? 즉, MLE을 사용하여 OLS를 피팅하는 경우 정규 분포에 대한 우도 함수를 사용하여 적합 확률을 계산하고 후자의 포아송 분포의 우도 함수를 계산합니까?
Alex

1
@ 알렉스 권리; OLS는 가우시안에서 ML이고 가우시안 가능성은 포아송 가능성이 아닙니다
Glen_b-복지국 Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.