감마-포아송이 무엇인지에 따라 포아송은 기하 급수적으로 증가합니까?


16

푸 아송 분포는 단위 시간당 이벤트를 측정 할 수 있으며 모수는 λ 입니다. 지수 분포는 매개 변수 1을 사용하여 다음 이벤트까지의 시간을 측정합니다.1λ . 이벤트 또는 시간을 모델링하기 쉬운 지 여부에 따라 하나의 분포를 다른 분포로 변환 할 수 있습니다.

이제 감마-포아송은 더 큰 분산을 갖는 "신축 된"포아송입니다. 와 이블 분포는 분산이 더 큰 "확장 된"지수입니다. 그러나 포아송이 지수로 변환되는 것과 같은 방식으로이 두 가지를 서로 쉽게 변환 할 수 있습니까?

아니면 감마-포아송 분포와 함께 사용하기에 더 적합한 다른 분포가 있습니까?

감마-포아송은 음의 이항 분포 또는 NBD라고도합니다.

답변:


14

이것은 상당히 직접적인 문제입니다. 포아송과 음 이항 분포 사이에 연관성이 있지만, 실제로 사람들이 부정적인 이항 과정을 생각하도록 장려하기 때문에 이것은 당신의 특정 질문에 도움이되지 않는다고 생각합니다. 기본적으로 일련의 포아송 프로세스가 있습니다.

와이나는(나는)|λ나는영형나는에스에스영형(λ나는나는)

여기서 는 프로세스이고 t i 는 관찰 한 시간이며, i 는 개인을 나타냅니다. 그리고 당신은 분배에 의해 비율을 함께 묶음으로써이 과정들이 "유사하다"고 말합니다 :와이나는나는나는

λ나는미디엄미디엄(α,β)

보다 통합 / mxixing을 수행하면 다음과 같은 이점 이 있습니다.λ나는

와이나는(나는)|αβ이자형나는(α,나는)h이자형아르 자형이자형나는=나는나는+β

여기에는 pmf가 있습니다 :

아르 자형(와이나는(나는)=와이나는|αβ)=Γ(α+와이나는)Γ(α)와이나는!나는와이나는(1나는)α

대기 시간 분포를 얻으려면 다음을 참고하십시오.

= 1 - ( 1 p i ) α = 1 ( 1 +

아르 자형(나는나는|αβ)=1아르 자형(나는>나는|αβ)=1아르 자형(와이나는(나는)=0|αβ)
=1(1나는)α=1(1+나는β)α

이것을 차별화하면 PDF가 있습니다.

나는(나는|αβ)=αβ(1+나는β)(α+1)

이것은 일반화 된 파레토 분포, 유형 II의 구성원입니다. 이것을 대기 시간 분배로 사용합니다.

푸 아송 분포와의 연결을 보려면 이므로β=α로설정하면αβ=이자형(λ나는|αβ) 다음 한계α를 가져옵니다.β=αλα

limααβ(1+tiβ)(α+1)=limαλ(1+λtiα)(α+1)=λexp(λti)

1α


1
또한 대기 시간 분포는 대략 감마 임의 비율 매개 변수를 사용한 지수 분포이며 엄격하게 말하면 감마 임의 비율 매개 변수를 사용한 모든 감마 분포와 마찬가지로 두 번째 종류의 베타 분포입니다.
Stéphane Laurent

@probabilityislogic을 기본으로 사용하여 NBD와 Pareto의 관계에 대한 자세한 내용을 제공하는 다음 기사를 찾았습니다. Gupta, Sunil 및 Donald G. Morrison. 소비자 구매율의 이종 추정. 마케팅 과학, 1991, 10 (3), 264-269. 이 질문에 대답하는 데 도움을 주신 모든 분들께 감사드립니다.
zbicyclist

+1,이 멋진 분석 형식은 더 이상 존재하지 않을 것 같습니다. 영형나는에스에스영형(λ나는나는+), 어디 상수입니다.
Randel

1
@randel-이 rv는 두 개의 독립적 인 rv의 합이라는 점을 주목하여 "멋진"형식을 얻을 수 있습니다 ...나는=와이나는+엑스나는 어디 와이나는 위와 동일하고 엑스나는영형나는에스에스영형(). 같이엑스나는 에 의존하지 않습니다 λ나는 또는 와이나는 의 PDF 나는위의 음 이항 pdf와 poisson pdf의 회선입니다. 대기 시간 분포를 얻으려면 곱하기Pr(Yi=0) in the above answer by Pr(Xi=0)=ec. You then get waiting time cdf of 1ec(1+tiβ)α and pdf of ecαβ(1+tiβ)(α+1).
probabilityislogic

1
This won't work in terms of the mixing distribution, because you need λi<cti1 (else the poisson mean is negative). The gamma mixing distribution would need to be truncated (I also assumed that c>0 in my previous answer). This would mean no nb distribution.
probabilityislogic

4

One possibility: Poisson is to Exponential as Negative-Binomial is to ... Exponential!

There is a pure-jump increasing Lévy process called the Negative Binomial Process such that at time t the value has a negative binomial distribution. Unlike the Poisson process, the jumps are not almost surely 1. Instead, they follow a logarithmic distribution. By the law of total variance, some of the variance comes from the number of jumps (scaled by the average size of the jumps), and some of the variance comes from the sizes of the jumps, and you can use this to check that it is overdispersed.

There may be other useful descriptions. See "Framing the negative binomial distribution for DNA sequencing."


Let me be more explicit about how the Negative Binomial Process described above can be constructed.

  • Choose p<1.

  • Let X1,X2,X3,... be IID with logarithmic distributions, so (엑스나는=케이)=1로그(1)케이케이.

  • 허락하다 일정한 비율의 포아송 프로세스 로그(1)그래서 ()=포 아스(로그(1)).

  • 허락하다 과정이다

()=나는=1()엑스나는.

대수적으로 분산 된 점프가있는 순수한 점프 프로세스입니다. 점프 사이의 갭은 비율이있는 지수 분포를 따릅니다.로그(1).

나는이 설명에서 분명하지 않다고 생각합니다. () 음 이항이있다 (,)Wikipedia에 확률 생성 함수를 사용 하는 짧은 증거가 있으며 Fisher는 종의 상대 빈도를 분석하기 위해 로그 분포를 도입했을 때이를 증명했습니다 .


1
아니요, 모든 복합 포아송 프로세스에는 지수 대기 시간이 있습니다. 이것은 당신이 추가 의미포 아스(λ)분포가있는 IID 랜덤 변수.
Douglas Zare

아니, 그것은 포아송 (Poisson) 합성이란 의미가 아닙니다. en.wikipedia.org/wiki/Compound_Poisson_process "점프는 포아송 프로세스에 따라 무작위로 도착하며 점프의 크기는 또한 확률 분포가 지정된 임의입니다." 나는 IID 포아송 변수를 말하지 않았다. 당신은IID 로그 랜덤 변수의 부분 합 포아송 프로세스의 가치입니다.
Douglas Zare

포아송 프로세스에 다음을 곱하면 2이는 포아송 프로세스가 아니며 대기 시간은 지수 적으로 유지됩니다.
Douglas Zare


0

나는 아직 언급 할 수 없으므로 이것이 결정적인 해결책이 아니라는 점에 사과드립니다.

NB와 함께 사용할 적절한 배포를 요청하고 있지만 적절한 것은 완전히 정의되지 않았습니다. 적절한 분포가 데이터를 설명하는 데 적합하고과 분산 된 포아송으로 시작하는 경우과 분산의 원인을 자세히 조사해야 할 수 있습니다. NB는 이기종의 평균을 가진 포아송 또는 긍정적 인 발생 의존성을 구분하지 않습니다 (한 사건이 다른 사건의 발생 가능성을 증가시킨다). 연속 시간에는 지속 시간 의존성이 있으며, 예를 들어 양의 지속 시간 의존성은 시간의 경과가 발생 확률을 증가 시킨다는 것을 의미합니다. 또한 음의 지속 시간 의존성이 과도하게 분산 된 포아송 (Poisson )을 야기한다는 것이 밝혀졌다 [1] . 적절한 대기 시간 모델이 될 수있는 목록이 추가됩니다.


1
과대 산포의 원인 : 이것은 소비자 구매 데이터입니다. 개별 소비자는 각각 구매 비율이 람다 인 포아송입니다. 그러나 모든 소비자가 동일한 람다를 갖는 것은 아닙니다. 그것이 과대 산포의 원인입니다. 람다 구매율은 감마로 분배 된 것으로 간주됩니다. 이것은 일반적인 모델이지만 (ASC Ehrenberg로 거슬러 올라갑니다), 나는 그의 글에서이 질문에 대한 답을 찾지 못했습니다.
zbicyclist
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.