보험 환경에서 클레임 수 데이터를 모델링 할 때 Poisson으로 시작했지만 과대 산포가 나타났습니다. Quasi-Poisson은 기본 Poisson보다 더 큰 평균-분산 관계를 더 잘 모델링했지만 계수가 Poisson과 Quasi-Poisson 모델에서 동일하다는 것을 알았습니다.
이것이 오류가 아닌 경우 왜 이런 일이 발생합니까? Poisson보다 Quasi-Poisson을 사용하면 어떤 이점이 있습니까?
참고 사항 :
- 근본적인 손실은 초과 기준이며, 이는 Tweedie가 작동하지 못하게했지만 처음 시도한 배포판이었습니다. 또한 NB, ZIP, ZINB 및 Hurdle 모델을 검사했지만 여전히 Quasi-Poisson이 가장 적합하다는 것을 알았습니다.
- AER 패키지의 분산 테스트를 통해과 분산을 테스트했습니다. 내 분산 변수는 대략 8.4였으며, p- 값은 10 ^ -16 크기입니다.
- family = poisson 또는 quasipoisson과 함께 glm ()을 사용하고 코드에 대한 로그 링크를 사용하고 있습니다.
- Poisson 코드를 실행할 때 "In dpois (y, mu, log = TRUE) : non-integer x = ..."라는 경고 메시지가 나타납니다.
Ben의 지침에 따라 유용한 SE 스레드 :
counts/exposure
. 대신 offset(log(exposure))
모형에 오프셋 ( ) 항을 추가해야합니다 .