GLM의 유사-포아송이 왜 음이 항의 특수한 경우로 취급되지 않습니까?


21

과도하게 분산되거나 분산되지 않은 카운트 데이터 세트에 일반 선형 모델을 맞추려고합니다. 여기에 적용되는 두 가지 정규 분포는 Poisson과 Negative Binomial (Negbin)이며 EV 와 분산입니다.μ

VarP=μ

VarNB=μ+μ2θ

이는 사용 R에 장착 가능 glm(..,family=poisson)하고 glm.nb(...), 각각. quasipoisson내 이해에는 동일한 EV와 분산으로 조정 된 포아송 이라는 가족 도 있습니다.

VarQP=ϕμ ,

즉, 포아송과 네빈 사이 어딘가에 떨어집니다. quasipoisson 제품군의 주요 문제점은 해당 가능성이 없기 때문에 매우 유용한 통계 테스트 및 적합 측정치 (AIC, LR 등)를 사용할 수 없다는 것입니다.

QP와 Negbin 분산을 비교하는 경우 를 넣어 동일화 할 수 있습니다 . 이 논리를 계속하여 quasipoisson 분포를 Negbin의 특수한 사례로 표현할 수 있습니다.ϕ=1+μθ

QP(μ,ϕ)=NB(μ,θ=μϕ1) ,

즉 Negbin와 선형 종속 . 위 공식에 따라 임의의 숫자 시퀀스를 생성하고 다음과 같이 피팅 하여이 아이디어를 검증하려고했습니다 .μθμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

두 적합치 모두 모수를 재현하며, quasipoisson은 대해 '합리적인'추정치를 제공합니다 . 이제 quasipoisson에 대한 AIC 값을 정의 할 수도 있습니다.ϕ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(나는 객체 에서 찾을 수 없으므로 에서 값 을 수동으로 복사해야 했습니다 )ϕsummary(glmQP)glmQP

이후 , 이것은 quasipoisson는, 당연히, 더 나은 적합 것을 나타냅니다; 따라서 최소한 야 할 일을 수행하므로, 이는 의 AIC (및 확장 가능성)에 대한 합리적인 정의 일 수 있습니다. 내가 남긴 큰 질문은 A I C Q PAICQP<AICNBAICQP

  1. 이 아이디어가 의미가 있습니까? 내 검증은 순환 추론을 기반으로합니까?
  2. 잘 확립 된 주제에서 빠진 것 같은 것을 '발명'하는 사람에게 가장 중요한 질문은이 아이디어가 의미가 있다면 왜 이미 구현되지 glm않았는가?

편집 : 그림 추가

glm fit 및 + -1 시그마 밴드


1
(+1) Cross Validated에 오신 것을 환영합니다! 그리고 훌륭한 질문에 감사드립니다 (코드에 약간의 주석이 R을 사용하지 않는 사람들에게는 좋을 수도 있지만). NB1 모델을 다시 발명했을 수도 있습니다 (아직 상세하게 따르지는 않았지만). 또한 유사-포아송 분포 가 없기 때문에 가능성이나 AIC가없는 이유는 단지 수단과 분산을 맞추는 방법을 나타냅니다.
Scortchi-Monica Monica 복원

2
감사! 그 동안 의견을 추가했습니다. 문제가 해결되기를 바랍니다. 나는 quais-Poisson 분포가 그 자체로 존재하지 않는다는 것을 이해합니다. 제가 실제로 알아 내려고 한 것은 NB1 분포가 존재하고 QP의 준 문제가 없다는 것을 고려하여 QP가 전혀 문제가되지 않는 이유입니다. (명확한 해결 방법은 Achims 답변 참조).
user28400 2016 년

1
XPois(λ)Y=kXYμ=kλkμk10,k,2k,...

1
@Glen_b : 사람들이 실제로 그것을 준-포아송이라고 부릅니까? 어쨌든 그것은 좋은 예입니다. "quasiPoisson"모델을 사용할 때 실제로 분포 또는 NB1 또는 기타를 가정하지 않고 계수와 표준 오차를 추정하는 평균과 분산의 관계 만 가정합니다. 샘플이 커질수록 더 좋습니다.
Scortchi-Monica Monica 복원

1
@Scortchi 준-포아송의 가정을 만족시키는 유일한 기하 급수 분포입니다. 사람들이 때때로 가정이 암시하는 분포라고 지적하는 것을 보았습니다. 물론 사람들이 데이터를 사용할 때는 데이터가 특정 분포에서 나온다는 것을 거의 의도하지 않습니다. 즉, 평균과 분산의 관계를 대략적으로 설명하기위한 것입니다. (일부 보험 적용의 경우, 청구 건수가 Poisson이고 청구 건당 비용이 실질적으로 일정한 총 청구 비용은 매우 간단한 가정 하에서 의미가있을 수 있습니다.)
Glen_b-복지국 Monica

답변:


24

유사-포아송은 완전 최대 가능성 (ML) 모델이 아니라 유사 -ML 모델입니다. 포아송 모델의 추정 함수 (또는 점수 함수)를 사용하여 계수를 추정 한 다음 특정 분산 함수를 사용하여 적절한 표준 오차 (또는 전체 공분산 행렬)를 얻어 추론을 수행합니다. 따라서, glm()제공하지 않습니다 logLik()또는 AIC()등에 여기

sizeθ나는μ나는

더 회귀 (단지 절편)을 NB1의 매개 변수화에 의해 사용되는 NB2의 매개 변수화가없는 경우 MASSglm.nb()이 일치가. 회귀 자와는 다릅니다. 통계 문헌에서 NB2 매개 변수화가 더 자주 사용되지만 일부 소프트웨어 패키지도 NB1 버전을 제공합니다. 예를 들어 R에서는 gamlss패키지를 사용하여 할 수 있습니다 gamlss(y ~ x, family = NBII). NB2 매개 변수화 및 NB1에 다소 혼란스럽게 gamlss사용 NBI합니다 NBII. 그러나 전문 용어와 용어가 모든 커뮤니티에 통일 된 것은 아닙니다.

그렇다면 NB1이 있다면 왜 quais-Poisson을 사용 하는가? 여전히 미묘한 차이가 있습니다. 전자는 유사 ML을 사용하고 제곱 편차 (또는 피어슨) 잔차에서 분산으로부터 추정값을 얻습니다. 후자는 전체 ML을 사용합니다. 실제로 차이는 크지 않지만 두 모델을 사용하는 동기는 약간 다릅니다.


1
감사! 매우 유용한 답변입니다. 지금 실험 gamlss중이며 정확히 필요한 것 같습니다. 유사 가능성 대 전체 ML을 사용하는 동기에 대해 자세히 설명해 주시겠습니까?
user28400 2016 년

2
당신은 덜 가정합니다 : 당신은 단지 (1) 기대와 회귀 변수 사이의 로그 선형 관계 (2) 분산과 기대 사이의 선형 관계라고 가정합니다. 나머지 가능성은 완전히 지정되어 있지 않습니다. (2)에 대한 대안으로서, 실무자들은 때때로 더 일반적인이 분산 패턴을 허용하는 소위 "강력한"샌드위치 표준 오차를 사용한다. 물론 샌드위치 표준 오류와 함께 NB1을 사용할 수도 있습니다. 몇 가지 의견이 더 vignette("countreg", package = "pscl")있습니다.
Achim Zeileis 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.