음 이항 회귀에서 피어슨의 잔차가 포아송 회귀에서보다 왜 작습니까?


9

나는이 데이터를 가지고있다 :

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

포아송 회귀 분석을 실행했습니다

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

부정적인 이항 회귀

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

그런 다음 포아송 회귀에 대한 분산 통계를 계산했습니다.

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

그리고 부정적인 이항 회귀 :

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

음의 이항 회귀에 대한 분산 통계가 포아송 회귀에 대한 분산 통계보다 상당히 작은 이유는 무엇입니까?

답변:


9

이것은 다소 간단하지만 "방정식을 사용하지 않고"는 실질적인 장애입니다. 나는 그것을 단어로 설명 할 수 있지만, 그 단어들은 반드시 방정식을 반영 할 것입니다. 나는 그것이 당신에게 받아 들일만한 가치가 있기를 바랍니다. (관련 방정식은 어렵지 않습니다.)

잔차에는 여러 유형이 있습니다. 원시 잔차 는 단순히 관측 된 반응 값 (귀하의 경우 counts)과 모형의 예측 된 반응 값의 차이입니다. Pearson 잔차 는 표준 편차 (사용중인 일반화 된 선형 모형의 특정 버전에 대한 분산 함수의 제곱근)로 이들을 나눕니다.

포아송 분포 와 관련된 표준 편차 는 음 이항 의 표준 편차 보다 작습니다 . 따라서 더 큰 분모로 나누면 몫이 더 작습니다.

또한 음수 이항식이 counts모집단에 균일하게 분포 되므로 음수 이항식이 더 적합합니다 . 즉, 분산이 평균과 같지 않습니다.


4
OP는 비 수학적 설명을 요구하지만이 답변에 대한 수학적 (또는 똑같이 엄밀하고 명확한) 타당성을 보는 것이 여전히 좋을 것입니다. "포아송은 NB의 (제한적) 특수 사례이고 NB에 더 많은 매개 변수가 있기 때문에 피팅에 더 많은 유연성이 있으므로 교체 할 때 합당한 잔차 측정 값이 증가하지 않아야합니다. NB GLM의 Poisson GLM " 그러한 직관이 실제로 올바른지 궁금합니다.
whuber

만약 , . 만약 , 와 . 따라서 포아송 분산은 평균과 같고 NegBin 분산은 평균보다 큽니다 ( ). 이것이 "포아송 분포와 관련된 표준 편차가 음 이항의 표준 편차보다 작은 이유입니다." XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2p<1(1p)2<(1p)
Sergio

3
@Sergio 문제의 핵심은, 포아송 모델에서 우리는 자체가 아니라 추정값 으로 작업 하고 NB 모델에서는 두 개의 추정값 및 . 따라서 귀하의 비교는 직접 적용되지 않습니다. 두 모델 모두에서 MLE의 공식을 실제로 쓰지 않으면 이러한 추정치 세트 간의 관계가 무엇인지 전혀 분명하지 않습니다. 또한 피어슨 잔차는 비율 이며 분산에 대한 논거는 분모에만 적용되며 이는 이야기의 절반에 불과합니다. λ^λr^p^
whuber

MLE 추정치는 일관됩니다. 문제는 gung이 말했듯이 "수는 인구 집단으로 균일하게 분포 될 것입니다. 즉, 분산이 평균과 같지 않을 것입니다." 포아송은 추정치가 공정하지 않고 일관성이 있더라도 의미합니다. 잘못된 사양 문제입니다.
Sergio

5

포아송 모델의 경우, 용 expection 경우 번째 관찰 된다 그 차이는 따라서 피어슨 잔류,iYiμiμi

yiμ^iμ^i

여기서 는 평균의 추정치입니다. MASS에 사용 된 음성 이항 모델의 매개 변수화는 여기 에 설명되어 있습니다 . 만약 대한 expection 번째 관찰 있다 의 분산이다 , 피어슨 잔류 따라서μ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

여기서 는 평균의 추정치입니다. 의 값이 작을수록 ( 즉, 추가 포아송 분산), 포아송 동등 량에 비해 잔차가 작아집니다. 그러나 @whuber가 지적했듯이 추정 절차는 추정 분산에 따라 관측치에 가중치를 부여하기 때문에 평균 추정치가 와 동일하지 않습니다 . 번째 예측 변수 패턴에 대한 반복 측정을 수행하는 경우 더 가깝게 접근 할 수 있으며 일반적으로 모수를 추가하면 모든 관측치에 더 잘 맞아야하지만,이를 엄격하게 설명하는 방법을 모르겠습니다. 포아송 모델이 보유하고 있다면 추정하는 모집단 수량이 더 많으므로 놀랄 일이 아닙니다.]μ~θμ^μ~i


1
방정식을 소개해 주셔서 감사합니다. 그러나μi두 모델에서 같은 값을 가지게 될까요? 그렇지 않다면, 어떻게 두 Pearson 잔차를 비교할 수 있습니까?
whuber

@whuber이 경우 두 모델의 적합치가 거의 동일하다는 것이 밝혀졌습니다. 결국, "참"모델은 실제로 절편을 가지고 있으며 시뮬레이션에서 x와 Y 사이의 관계가 없기 때문에 기본적으로 평균을 모델링합니다.
jsk

1
@jsk 예, 데이터를 살펴보고 코드를 실행했습니다. (BTW, 데이터를 변경하고 두 모델에 대해 본질적으로 동일한 분산 통계를 얻을 수 있습니다.) 아아, 당신의 요점은 여전히 ​​유효하지만 특정 질문을 해결하지 못하거나 (암시 적) 일반적인 질문을 다루지 않습니다. 추정 분산이 거의 동일 할 수 있기 때문에 포아송 잔차를 NB 잔차와 비교합니다. 본 답변에 대한 잠재적으로 혼란스러운 측면 중 하나는 "μi" 같은 데이터의 두 모델에서 다른 추정치 가 될 수있는 원칙을 나타냅니다 .
whuber

1
@whuber 실제로, 사용에 대한 유효한 포인트가 있습니다 μi. 흥미롭게도 NB보다 Poisson의 분산 통계가 더 낮은 데이터를 시뮬레이션하는 방법을 찾을 수없는 것 같습니다. 아마도 불가능할까요? 나는 이것이 직관적으로 의미가 있음에 동의합니다. ID 이외의 링크 기능을 가진 glm이있는 경우 mle에 대한 닫힌 양식 솔루션이 없으므로 증명하기가 쉽지 않습니다. 그러나 두 분산 통계를 매우 유사하게 만드는 것은 쉽습니다.
JSK

1
@jsk-NB 모델이 Poisson보다 항상 더 적합하다고 생각하는 이론적 주장 중 하나는 NB를 poisson-gamma compound distribution으로 쓸 수 있다는 것입니다. 그래서 당신은(yi|λ,vi,r)Poisson(λvi) 그리고 (vi|λ,r)Gamma(r,r) 음 이항 모델을 제공합니다 (yi|λ,r)NB(r,λr+λ). 이제 그 추가vi 모수를 사용하면 모형이 예측 평균을 관측 값에 더 가깝게 만들 수 있음 yi>λ 당신은 볼 것이다 vi>1, 잔차 감소.)
확률 론적
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.