과대 산포를 갖는 포아송 분포 모델링


15

Poisson 분포를 따를 것으로 예상되는 데이터 세트가 있지만 약 3 배 정도 과대 산포되어 있습니다. 현재 R의 다음 코드와 같은 것을 사용하여이과 분산을 모델링하고 있습니다.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

시각적으로 이것은 경험적 데이터에 매우 잘 맞는 것 같습니다. 적합에 만족하면 여기에 설명 된대로 음 이항 분포를 사용하는 것과 같이 더 복잡한 작업을 수행해야하는 이유가 있습니까? (그렇다면 그렇게 할 때의 어떤 포인터 나 링크도 대단히 감사하겠습니다).

아, 그리고 이것이 3의 곱셈으로 인해 약간 들쭉날쭉 한 분포를 생성하지만 내 응용 프로그램에는 중요하지 않다는 것을 알고 있습니다.


업데이트 : 이 질문을 검색하고 찾는 다른 사람을 위해 음의 이항 분포를 사용하여과 분산 된 포아송을 모델링하는 간단한 R 함수가 있습니다. d를 원하는 평균 / 분산 비율로 설정하십시오.

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(R 메일 링리스트를 통해 : https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

답변:


11

과 분산 된 포아송의 경우 마이너스 이항을 사용하여 평균의 함수로 분산을 매개 변수화 할 수 있습니다. R의 rnbinom () 등


1
왜 관측 이항 랜덤 효과를 갖는 혼합 모형이 아닌 음 이항 법입니까? 이것은 수사적인 질문이 아닙니다. 이것은 "내가 선호하는 것을 이해하지 못한다"입니다. 질문. 또한 반복되는 측정 상황이있는 경우 어떻게합니까? 데이터가 연속적이면 일반화 된 선형 혼합 모델을 사용합니다. 감마 분포는 종종 연속적인 생물학적 데이터와 잘 작동하며 혼합 모델은 반복 측정 요소를 처리합니다. 그러나 반복 측정 계수 데이터를 과도하게 분산시킨 경우 어떻게해야합니까?
Bryan

재 분산 된 음 이항 모델이과 분산 된 포아송 데이터에 인기를 얻는 한 가지 이유는 b / c이기 때문에 "추가"분산을 모델링하기 위해과 분산 모수를 사용하여 평균 (포아송과 동일)의 함수로 분산을 모델링하는 것입니다. : 빠른 공식 여기 페이지 487 참조 worldscientific.com/doi/pdf/10.1142/9789813235533_0044 변수화에 대한 설명과 위키 피 디아 페이지 : en.wikipedia.org/wiki/Negative_binomial_distribution
사미르 라시드 Zaim

4

푸 아송의 평균값이 1500이면 정규 분포에 매우 가깝습니다. 이를 근사값으로 사용한 다음 평균과 분산을 개별적으로 모델링 해보십시오.


그것은 단지 예일뿐입니다-200 정도의 중간 값을 가질 수 있습니다 (데이터를 분할하는 방법에 달려 있습니다). 정규 분포를 사용하지 않아도 될까요?
chrisamiller

1
Poisson 분포에 대한 일반적인 근사치는 매우 강력하며 CDF의 차이는 올바르게 기억하면 0.75 / sqrt (lambda)와 같은 것으로 제한됩니다. 람다 = 200을 사용하는 것에 대해 너무 걱정하지는 않지만 더 위험을 피하려면 음수 이항 법을 사용하십시오.
Rich
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.