카운트 데이터와 과대 산포가있는 회귀 분석에서 포아송 또는 준 포아송?


16

계산 데이터가 있습니다 (많은 요인에 따라 고객 수를 계산하여 요구 / 제공 분석). 정상적인 오류로 선형 회귀를 시도했지만 QQ 플롯이 실제로 좋지 않습니다. 나는 대답의 로그 변환을 시도했다 : 다시 한 번 나쁜 QQ 플롯.

이제 Poisson Errors로 회귀를 시도하고 있습니다. 모든 중요한 변수가있는 모델을 사용하면 다음과 같은 결과를 얻습니다.

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

잔차 이탈은 잔차 자유도보다 큽니다. 과대 산포가 있습니다.

quasipoisson을 사용해야하는지 어떻게 알 수 있습니까? 이 경우 quasipoisson의 목표는 무엇입니까? Crawley의 "The R Book"에서이 조언을 읽었지만 요점이나 그 점이 크게 개선되지는 않았습니다.

답변:


18

어떤 종류의 glm 방정식을 추정 할 것인지 결정할 때 오른쪽 (rhs) 변수가 주어진 목표 변수의 예상 값과 rhs 변수가 주어진 목표 변수의 분산 사이의 그럴듯한 관계에 대해 생각해야합니다. 노멀 모델의 잔차 대 적합치 그림이 도움이 될 수 있습니다. 포아송 회귀 분석에서 추정 관계는 분산이 예상 값과 같다는 것입니다. 오히려 제한적이라고 생각합니다. "표준"선형 회귀 분석에서는 추정값에 관계없이 분산이 일정하다고 가정합니다. 유사-포아송 회귀 분석의 경우 분산은 평균의 선형 함수 인 것으로 가정합니다. 음 이항 회귀의 경우 2 차 함수입니다.

그러나 이러한 관계로 제한되지는 않습니다. "가족"( "quasi"이외)의 사양에 따라 평균-분산 관계가 결정됩니다. The R Book은 없지만 가족 기능과 해당 평균-분산 관계를 보여주는 표가 있다고 생각합니다. "quasi"제품군의 경우 여러 평균-분산 관계를 지정할 수 있으며 자신 만의 고유 한 관계를 작성할 수도 있습니다. R 문서를 참조하십시오 . "quasi"모델에서 평균-분산 함수에 기본값이 아닌 값을 지정하면 훨씬 더 적합한 결과를 얻을 수 있습니다.

또한 대상 변수의 범위에주의해야합니다. 귀하의 경우에는 음수가 아닌 데이터입니다. 낮은 값 (0, 1, 2)의 상당 부분이있는 경우 연속 분포가 적합하지 않을 수 있지만 그렇지 않은 경우 불연속 분포를 사용하는 데 큰 가치가 없습니다. Poisson 및 Normal 분포를 경쟁자로 간주하는 경우는 거의 없습니다.


네 말이 맞아. 여기에 계산 데이터가 있지만 값이 큽니다. 연속 분포를 사용해야합니다.
Antonin

8

당신은 옳습니다. 이러한 데이터는 과도하게 분산되어있을 수 있습니다. Quasipoisson은 해결책입니다. 척도 모수도 추정합니다 (변형도 평균이므로 포아송 모형에 대해 고정됨). 그러나 현재 수행중인 작업이 더 이상 최대 가능성이 아니므로 특정 모델 테스트 및 색인을 사용할 수 없습니다. Venables and Ripley, S를 사용한 Modern Applied Statistics (7.5 절) 에서 좋은 토론을 찾을 수 있습니다 .

대안은 음수 이항 모델을 사용하는 것입니다 (예 : glm.nb()package 의 함수) MASS.


1
그러나이 경우에 quasipoisson을 사용하도록 "강제로"있습니까? 더 많은 변수가 중요하다는 점에서 비 쿼시 포이 손 모델이 기본 포아송보다 우수하기 때문에 묻습니다.
Antonin

2
그래도 말이되지 않습니까? 데이터의 추정값을 사용하는 대신 시그마가 .00001이라고 가정 한 회귀 모델을 사용하면 (2.3), 물론 상황이 더 중요해질 것입니다.
Dason

1
Antonin : 더 많은 변수가 중요하기 때문에 "더 나은"것을 만들지 않습니다. Dason이 지적했듯이 오류 분산을 과소 평가하면 쉽게 오 탐지가 될 수 있습니다. 나는이 경우에 준법이나 음의 이항 법을 사용할 것이다. 그러나 논문을 검토하지 않으면 아무 것도하지 않아도된다.)
Momo

답변 주셔서 감사합니다! 유사-포아송 모델과 음 이항 모델을 비교하는 방법을 알고 있습니까? 대부분의 책에서 모델을 제시하지만 모델을 선택하는 방법은 설명하지 않습니다.
Antonin

1
출력에서 53-17 = 16 매개 변수를 53 + 1 = 54 데이터 포인트에 맞추는 것 같습니다. 이게 옳은 거니? 사용 포함 점근선 근사법에 의존하는 임의의 방법 그렇다면 glm()glm.nb()심하게 보정 추론을 줄 우려가있다; 정밀도가 과장 될 것으로 예상하는 것이 합리적입니다. 이 회귀 분석을 수행하려는 이유에 대해 자세히 알고 있으면 도움이됩니다. 작은 샘플 상황에서 성능이 더 좋은 방법을 대신 사용할 수 있습니다.
손님
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.