음 이항 분포 변수의 차이를 설명하는 분포?


18

Skellam 분포는 푸 아송 분포를 가진 두 변수 사이의 차이를 설명한다. 음의 이항 분포를 따르는 변수 간의 차이를 설명하는 유사한 분포가 있습니까?

내 데이터는 포아송 프로세스에 의해 생성되지만 상당한 양의 노이즈가 포함되어 분포가 과도하게 분산됩니다. 따라서 음 이항 (NB) 분포로 데이터를 모델링하면 효과적입니다. 이 두 NB 데이터 세트의 차이점을 모델링하려면 옵션은 무엇입니까? 도움이되는 경우 두 세트에 대해 유사한 평균과 분산을 가정하십시오.


표준 이름이없는 설명이 쉬운 많은 배포판이 있습니다.
Glen_b-복지 모니카

답변:


22

이 분포의 이름을 모르지만 총 확률 법칙에서 파생 할 수 있습니다. 각각 모수 ( r 1 , p 1 )( r 2 , p 2 )를 갖는 음의 이항 분포를 가지고 있다고 가정하십시오 . X , Y 는 각각 r 1 '및 r 2 '실패 이전의 성공 횟수를 나타내는 매개 변수를 사용하고 있습니다. 그때,엑스,와이(아르 자형1,1)(아르 자형2,2)엑스,와이아르 자형1아르 자형2

P(XY=k)=EY(P(XY=k))=EY(P(X=k+Y))=y=0P(Y=와이)(엑스=케이+와이)

우린 알아

(엑스=케이+와이)=(케이+와이+아르 자형11케이+와이)(11)아르 자형11케이+와이

(와이=와이)=(와이+아르 자형21와이)(12)아르 자형22와이

그래서

(엑스와이=케이)=와이=0(와이+아르 자형21와이)(12)아르 자형22와이(케이+와이+아르 자형11케이+와이)(11)아르 자형11케이+와이

예쁘지 않아요. 내가 바로 보는 유일한 단순화는

1케이(11)아르 자형1(12)아르 자형2와이=0(12)와이(와이+아르 자형21와이)(케이+와이+아르 자형11케이+와이)

여전히 추악합니다. 도움이되는지 확실하지 않지만 다음과 같이 다시 작성할 수도 있습니다.

p1k(1p1)r1(1p2)r2(r11)!(r21)!y=0(p1p2)y(y+r21)!(k+y+r11)!y!(k+y)!

I'm not sure if there is a simplified expression for this sum but it could be approximated numerically if you only need it to calculate p-values

I verified with simulation that the above calculation is correct. Here is a crude R function to calculate this mass function and carry out a few simulations

  f = function(k,r1,r2,p1,p2,UB)  
  {

  S=0
  const = (p1^k) * ((1-p1)^r1) * ((1-p2)^r2)
  const = const/( factorial(r1-1) * factorial(r2-1) ) 

  for(y in 0:UB)
  {
     iy = ((p1*p2)^y) * factorial(y+r2-1)*factorial(k+y+r1-1)
     iy = iy/( factorial(y)*factorial(y+k) )
     S = S + iy
  }

  return(S*const)
  }

 ### Sims
 r1 = 6; r2 = 4; 
 p1 = .7; p2 = .53; 
 X = rnbinom(1e5,r1,p1)
 Y = rnbinom(1e5,r2,p2)
 mean( (X-Y) == 2 ) 
 [1] 0.08508
 f(2,r1,r2,1-p1,1-p2,20)
 [1] 0.08509068
 mean( (X-Y) == 1 ) 
 [1] 0.11581
 f(1,r1,r2,1-p1,1-p2,20)
 [1] 0.1162279
 mean( (X-Y) == 0 ) 
 [1] 0.13888
 f(0,r1,r2,1-p1,1-p2,20)
 [1] 0.1363209

I've found the sum converges very quickly for all of the values I tried, so setting UB higher than 10 or so is not necessary. Note that R's built in rnbinom function parameterizes the negative binomial in terms of the number of failures before the r'th success, in which case you'd need to replace all of the p1,p2's in the above formulas with 1p1,1p2 for compatibility.


Thanks. I'll need some time to digest this, but your help is much appreciated.
chrisamiller

-2

Yes. skewed generalized discrete Laplace distribution is the difference of two negative binomial distributed random variables. For more clarifications refer the online available article "skewed generalized discrete Laplace distribution" by seetha Lekshmi.V. and simi sebastian


4
Can you provide a complete citation & a summary of the information in the paper so future readers can decide if it's something they want to pursue?
gung - Reinstate Monica

The article mentioned by @simi-sebastian (the author?) is ijmsi.org/Papers/Volume.2.Issue.3/K0230950102.pdf. However, unless I'm mistaken, it only addresses the case of the Negative Binomial variables X and Y both having the same dispersion parameter, rather than the more general case described by the original poster.
Constantinos
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.