과도하게 분산되거나 분산되지 않은 카운트 데이터 세트에 일반 선형 모델을 맞추려고합니다. 여기에 적용되는 두 가지 정규 분포는 Poisson과 Negative Binomial (Negbin)이며 EV 와 분산입니다.
이는 사용 R에 장착 가능 glm(..,family=poisson)
하고 glm.nb(...)
, 각각. quasipoisson
내 이해에는 동일한 EV와 분산으로 조정 된 포아송 이라는 가족 도 있습니다.
,
즉, 포아송과 네빈 사이 어딘가에 떨어집니다. quasipoisson 제품군의 주요 문제점은 해당 가능성이 없기 때문에 매우 유용한 통계 테스트 및 적합 측정치 (AIC, LR 등)를 사용할 수 없다는 것입니다.
QP와 Negbin 분산을 비교하는 경우 를 넣어 동일화 할 수 있습니다 . 이 논리를 계속하여 quasipoisson 분포를 Negbin의 특수한 사례로 표현할 수 있습니다.
,
즉 Negbin와 선형 종속 . 위 공식에 따라 임의의 숫자 시퀀스를 생성하고 다음과 같이 피팅 하여이 아이디어를 검증하려고했습니다 .μglm
#fix parameters
phi = 3
a = 1/50
b = 3
x = 1:100
#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison
mu = exp(a*x+b)
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator
#fit a generalized linear model y = f(x)
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial
> glmQP
Call: glm(formula = y ~ x, family = quasipoisson)
Coefficients:
(Intercept) x
3.11257 0.01854
(Dispersion parameter for quasipoisson family taken to be 3.613573)
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 2097
Residual Deviance: 356.8 AIC: NA
> glmNB
Call: glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)
Coefficients:
(Intercept) x
3.10182 0.01873
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 578.1
Residual Deviance: 107.8 AIC: 824.7
두 적합치 모두 모수를 재현하며, quasipoisson은 대해 '합리적인'추정치를 제공합니다 . 이제 quasipoisson에 대한 AIC 값을 정의 할 수도 있습니다.
df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values
#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329
(나는 객체 에서 찾을 수 없으므로 에서 값 을 수동으로 복사해야 했습니다 )summary(glmQP)
glmQP
이후 , 이것은 quasipoisson는, 당연히, 더 나은 적합 것을 나타냅니다; 따라서 최소한 야 할 일을 수행하므로, 이는 의 AIC (및 확장 가능성)에 대한 합리적인 정의 일 수 있습니다. 내가 남긴 큰 질문은 A I C Q P
- 이 아이디어가 의미가 있습니까? 내 검증은 순환 추론을 기반으로합니까?
- 잘 확립 된 주제에서 빠진 것 같은 것을 '발명'하는 사람에게 가장 중요한 질문은이 아이디어가 의미가 있다면 왜 이미 구현되지
glm
않았는가?
편집 : 그림 추가