포아송 대 준-포아송 모형에서 추정 된 동일한 계수


12

보험 환경에서 클레임 수 데이터를 모델링 할 때 Poisson으로 시작했지만 과대 산포가 나타났습니다. Quasi-Poisson은 기본 Poisson보다 더 큰 평균-분산 관계를 더 잘 모델링했지만 계수가 Poisson과 Quasi-Poisson 모델에서 동일하다는 것을 알았습니다.

이것이 오류가 아닌 경우 왜 이런 일이 발생합니까? Poisson보다 Quasi-Poisson을 사용하면 어떤 이점이 있습니까?

참고 사항 :

  • 근본적인 손실은 초과 기준이며, 이는 Tweedie가 작동하지 못하게했지만 처음 시도한 배포판이었습니다. 또한 NB, ZIP, ZINB 및 Hurdle 모델을 검사했지만 여전히 Quasi-Poisson이 가장 적합하다는 것을 알았습니다.
  • AER 패키지의 분산 테스트를 통해과 분산을 테스트했습니다. 내 분산 변수는 대략 8.4였으며, p- 값은 10 ^ -16 크기입니다.
  • family = poisson 또는 quasipoisson과 함께 glm ()을 사용하고 코드에 대한 로그 링크를 사용하고 있습니다.
  • Poisson 코드를 실행할 때 "In dpois (y, mu, log = TRUE) : ​​non-integer x = ..."라는 경고 메시지가 나타납니다.

Ben의 지침에 따라 유용한 SE 스레드 :

  1. 포아송 회귀 분석의 기본 오프셋 수학
  2. 계수에 대한 오프셋의 영향
  3. 공변량과 오프셋으로 노출을 사용하는 것의 차이점

Tweedie 배포판이 더 좋은 아이디어가 아닌가?
duffymo

Tweedie는 처음부터 시도했지만 손실 데이터는 기초가 아니라 과도한 기준입니다. 또한 카운트 분산을 해결하기 위해 Negative Binomial, ZIP 및 hurdle 모델을 시도했습니다.
Frank H.

1
데이터의 정수가 아닌 값의 출처에 대해 조금 더 설명 할 수 있습니까 ??
벤 볼커

6
의 계산 비율로 주파수 / 속도를 모델링 해서는 안됩니다counts/exposure . 대신 offset(log(exposure))모형에 오프셋 ( ) 항을 추가해야합니다 .
Ben Bolker

1
Poisson (quasi-Poisson이 아닌) 모델링을 수행 할 때 가장 중요하지만 실용적입니다. 나는 좋은 참고 자료를 모릅니다. CrossValidated에 대한 관련 답변을 찾을 수 없으면 훌륭한 후속 질문을합니다.
벤 볼커

답변:


25

이것은 거의 중복입니다 . 연결된 질문에 따르면 계수 추정치, 잔차 편차 또는 자유도 변경을 기 대해서는 안됩니다. 포아송에서 준-포아송으로 이동할 때 변하는 유일한 것은 이전에 1로 고정 된 척도 모수는 잔차 변동 / 적합도 추정치 (보통 피어슨 잔차의 제곱의 합을 통해 추정 됨)로부터 계산된다는 것입니다. ( )를 잔차 df로 나눈 값은 잔차 이탈을 무의식적으로 사용하더라도 동일한 결과를 제공합니다. 결과적으로 표준 오차는이 척도 모수의 제곱근에 따라 척도 화되며 신뢰 구간 및 의 수반되는 변경이 발생합니다 . pχ2p

유사 가능성의 이점은 데이터가 포아송이라고 가정 할 때의 기본 오류를 수정한다는 것입니다 (= 동종, 독립 카운트). 그러나 이런 방식으로 문제를 해결하면 잠재적으로 데이터의 다른 문제를 숨길 수 있습니다. 유사 가능성은 과대 산포를 처리하는 한 가지 방법입니다. 과대 산포를 어떤 방식으로 해결하지 않으면 계수는 합리적이지만 추론 (CI, 등)은 쓰레기가됩니다.p

  • 위에서 언급했듯이과 분산에 대한 다양한 접근 방식이 있습니다 (Tweedie, 다른 음 이항 모수화, 유사 가능성, 제로 인플레이션 / 변경).
  • > 5 (8.4)의 과대 산포 계수를 사용하면 일종의 모델 미스 핏 (이상치, 제로 인플레이션 [이미 시도한 것으로 보임], 비선형 성)에 의해 구동되는지에 대해 약간 걱정할 것입니다. 전반적으로 이종성을 나타내는 것보다 이것에 대한 나의 일반적인 접근 방식은 원시 데이터 및 회귀 진단의 그래픽 탐색입니다 ...

매우 도움이됩니다. Poisson의 변수 및 변수 수준에 대한 p- 값이 언급 한 스케일링으로 인해 Quasi-Poisson보다 통계적으로 훨씬 중요하다는 것을 알았습니다. 나는 특이 치를 테스트했지만 이것이 문제가되지는 않았다. 과대 산포에 의해 가려지는 다른 문제 나 이러한 문제를 찾기위한 그러한 접근의 예는 무엇입니까?
Frank H.

링크 (log) 척도에 대한 대부분 비선형 응답; 잔차 대 적합도 및 잔차 대 예측 변수도를 확인하여 패턴이 있는지 확인하십시오.
벤 볼커

1
+1 멋지게 배치되었습니다! 첫 단락의 명확성을 높이 평가합니다.
Alexis
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.