이 iid Bernoulli 변수의이 랜덤 합의 확률 분포는 무엇입니까?


9

동일하게 분포되지 않은 임의의 수의 변수 합계의 확률 분포를 찾으려고합니다. 예를 들면 다음과 같습니다.

John은 고객 서비스 콜센터에서 일합니다. 문제가있는 전화를 받고 해결하려고합니다. 그가 해결할 수없는 사람들을 상사에게 전달합니다. 그가 하루에받는 전화 수는 평균을 가진 포아송 분포를 따른다고 가정 해 봅시다.μ. 각 문제의 어려움은 아주 간단한 것들 (그가 확실히 다룰 수있는 것)에서 해결 방법을 모르는 매우 전문적인 질문에 이르기까지 다양합니다. 확률이pi그는 매개 변수가있는 베타 분포에 따른 i 번째 문제 를 해결할 수 있습니다.αβ이전 문제와 무관합니다. 그가 하루에 해결하는 통화 수의 분포는 무엇입니까?

더 공식적으로, 나는 가지고있다 :

Y=I(N>0)i=0NXi ...에 대한 i=0,1,2,...,N

어디 NPoisson(μ) , (Xi|pi)Bernoulli(pi)piBeta(α,β)

현재로서는 다음과 같이 가정합니다. Xi독립적입니다. 나는 또한 매개 변수를 수락합니다μ,αβ 실제 사례에서 서로에게 영향을 미치지 않습니다. μ 큰 매개 변수 αβ 베타 배포판이 낮은 성공률에서 더 많은 질량을 갖도록 p. 그러나 지금은 그것을 무시합시다.

나는 계산할 수있다 P(Y=0)그러나 그것은 그것에 관한 것입니다. 또한 분포가 무엇인지에 대한 아이디어를 얻기 위해 값을 시뮬레이션 할 수 있습니다.Y (포아송처럼 보이지만 그 숫자에 해당하는지 모르겠습니다. μ,αβ시도했는지 또는 일반화되는지 여부와 다른 매개 변수 값에 따라 어떻게 변경 될 수 있습니까? 이 배포판이 무엇인지 또는 어떻게 배포 할 수 있는지에 대한 아이디어가 있습니까?

이 질문을 TalkStats 포럼 에도 게시 했지만 여기에서 더 많은 관심을 가질 수 있다고 생각했습니다. 교차 게시에 대한 사과와 시간 내 주셔서 감사합니다.

편집 : 그것이 밝혀 졌을 때 (아래 매우 유용한 답변을 참조하십시오-감사합니다!), 그것은 실제로Poisson(μαα+β)분포, 직관과 시뮬레이션을 기반으로 추측했지만 증명할 수 없었습니다. 내가 지금 놀라운 것을 발견 한 것은, 포아송 분포가 단지 평균에 의존한다는 것입니다.Beta 분포이지만 분산의 영향을받지 않습니다.

예를 들어, 다음 두 베타 분포는 평균은 다르지만 분산은 다릅니다. 명확성을 위해 파란색 pdf는Beta(2,2) 그리고 빨간 것 Beta(0.75,0.75).

베타 배포

그러나 둘 다 동일한 결과를 낳습니다. Poisson(0.5μ)나에게는 약간 반 직관적 인 것처럼 보이는 분포. (결과가 잘못되었다고 말하는 것이 아니라 놀랍습니다!)


고정 용 N포아송 - 이항 분포는 하지만 문제는 더 다음이 복잡하다.
Tim

고마워, 포아송-이항 분포를 알고 있지만 N여기 무작위입니다.
Constantinos

Poisson 복합을 살펴볼 수도 있지만 0을 사용하여 유용한 작업을 수행해야 할 수도 있습니다.
Glen_b -Reinstate Monica

답변:


6

통화 (즉, Xi)는 포아송 프로세스에 따라 도착합니다. 총 통화 수N포아송 분포를 따릅니다. 통화를 두 가지 유형으로 구분합니다 (예 :Xi=1 또는 Xi=0. 목표는1에스. 이것은 사소한 경우Xi=1 고정 확률로 p: 포아송 프로세스의 중첩 원리에 의해 전체 프로세스는 1또한 포아송 프로세스가 될 것입니다. pμ. 실제로 이것은 사실이며, 거기에 도달하기 위해서는 추가 단계가 필요합니다.

한계를 넘다 pi그래서

Pr(Xi|α,β)=01piXi(1pi)1Xipiα1(1pi)β1B(α,β)dpi=B(Xi+α,1Xi+β)B(α,β)

어디 B(a,b)=Γ(a)Γ(b)Γ(a+b)베타 기능입니다. 사실을 사용하여Γ(x+1)=xΓ(x), 상기는 단순화된다;

Pr(Xi=1|α,β)=Γ(1+α)Γ(β)Γ(1+α+β)Γ(α+β)Γ(α)Γ(β)=αα+β
다시 말해, XiBernoulli(αα+β). 중첩 속성으로Y 포아송은 비율로 배포됩니다 αμα+β.

그림에서 수치 예 (R 사용) ...에서 수직선은 시뮬레이션에서 가져온 것이고 빨간색 점은 위에서 파생 된 pmf입니다.

draw <- function(alpha, beta, mu) 
{ N <- rpois(1, mu); p = rbeta(N, alpha, beta); sum(rbinom(N, size=1, prob=p)) }

pmf <- function(y, alpha, beta, mu)
  dpois(y, alpha*mu/(alpha+beta))

y <- replicate(30000,draw(4,5,10))
tb <- table(y)

# simulated pmf
plot(tb/sum(tb), type="h", xlab="Y", ylab="Probability")
# analytic pmf
points(0:max(y), pmf(0:max(y), 4, 5, 10), col="red")

여기에 이미지 설명을 입력하십시오


3
  1. 이후 pi 와 임의의 변수입니다 Beta(α,β) 당신은 가지고 E[pi]=αα+β 이것은 실제로 요한이 실제로 해결할 확률입니다. i다른 모든 문제와는 독립적으로

  2. 하루의 총 문제 수에는 모수를 갖는 포아송 분포가 있으므로 μ 각각은 확률로 해결됩니다 αα+βJohn이 매일 해결하는 수에는 모수를 갖는 포아송 분포가 있습니다. μαα+β

  3. 그가 문제를 해결하지 못할 확률에 대한 계산은 P(Y=0)=eμα/(α+β)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.