음 이항 분포를 사용하기 위해 푸 아송 분포를 사용한 공정 모델링에서 전환 하시겠습니까?


24

우리는 정해진 시간 동안 여러 번 발생할 수있는 임의의 과정을 가지고 있습니다 . 이 프로세스의 기존 모델의 데이터 피드를 통해 기간에 여러 이벤트가 발생할 확률을 제공합니다 . 이 기존 모델은 오래되었으며 추정 오류에 대해 피드 데이터에서 실시간 검사를 실행해야합니다. 데이터 피드를 생성하는 기존 모델 ( 시간 남은 에서 이벤트가 발생할 확률을 제공함 )은 대략 포아송 분포입니다.T0t<Tnt

이상 / 오류를 확인하기 위해 t 남은 시간으로, Xt 남은 시간 t 에서 발생하는 총 이벤트 수로 설정합니다 t. 이전 모델은 추정치 P(Xtc) 합니다. 따라서 XtPoisson(λt) 은 다음과 같이 가정합니다. \ P (X_t \ leq c) = e ^ {-\ lambda} \ sum_ {k = 0} ^ c \ frac { \ lambda_t ^ k} {k!} \. 이전 모델의 출력 (관 측량 y_ {t} ) 에서

P(Xtc)=eλk=0cλtkk!.
이벤트 속도 \ lambda_t 를 도출 하기 위해 상태 공간 접근 방식을 사용하고 상태 관계를 다음과 같이 모델링합니다. y_t = \ lambda_t + \ varepsilon_t \ quad (\ varepsilon_t \ sim N ( 0, H_t)) \. λtyt
yt=λt+εt(εtN(0,Ht)).
필터링 된 상태 E (\ lambda_t | Y_t) 를 얻기 위해 \ lambda_t 의 진화를위한 상태 공간 [constant speed decay] 모델을 사용하여 이전 모델의 관측치를 λt필터링하고 다음 에서 추정 된 이벤트 빈도에서 이상 / 오류를 표시합니다. 하여 피드 데이터의 경우 E (\ lambda_t | Y_t) <y_t .E(λt|Yt)E(λt|Yt)<yt

이 접근법은 전체 기간 T 에 대한 예상 이벤트 카운트에서 오류를 포착하는 데 환상적으로 잘 작동 T하지만 다른 기간에 대해 동일한 작업을 수행하려는 경우에는 좋지 않습니다. 0t<σ 여기서 σ<23T . 이 문제를 해결하기 위해 이제 X_t \ sim NB (r, p) 라고 가정 XtNB(r,p)하고 \ P (X_ {t} \ leq c) = p를 갖도록 음 이항 분포를 사용하도록 전환하기로 결정했습니다 . ^ {r} \ sum_ {k = 0} ^ c (1-p) ^ {k} \ binom {k + r -1} {r-1},

(엑스기음)=아르 자형케이=0기음(1)케이(케이+아르 자형1아르 자형1),
여기서 \ lambda 매개 변수 λ는 이제 아르 자형p 로 대체됩니다. 이것은 구현하기가 간단해야하지만 해석에 어려움이 있으므로 도와 드리겠습니다.

1. 음의 이항 분포에서 =λ 를 설정할 수 있습니까 ? 그렇지 않다면 왜 안됩니까?

2. 우리가 설정할 수있는 가정하면 =에프(λ) 여기서, 에프 어떤 함수이며, 어떻게 정확하게 설정할 수 아르 자형 (우리는 적합해야 하는가 아르 자형 과거 데이터 세트를 사용하여)?

3. IS는 아르 자형 우리가 주어진 과정에서 발생하는 예상 이벤트의 수에 따라 달라?


아르 자형 (및 )에 대한 추정값 추출에 대한 부록 :

실제로이 문제를 되돌리고 각 프로세스에 대한 이벤트 수를 가졌다면 과 대해 최대 우도 추정값을 채택 할 수 있다는 것을 알고 있습니다. 물론 최대 우도 추정량은 표본 분산이 표본 평균보다 큰 표본에 대해서만 존재하지만,이 경우 독립적으로 동일하게 분포 된 관측치 대한 우도 함수를 설정할 수 있습니다 as : 로그 우도 함수를 다음과 같이 작성할 수 있습니다. P는 N의 K 1 , K 2 , ... , k는 N L ( R , P ) = N Π를= 1 P ( k는 I , R , P ) , L ( R , P ) = N Σ를= 1 명 (LN)을 ( Γ을 ( k i + r ) ) N i아르 자형k1,k2,,케이

L(r,p)=i=1NP(ki;r,p),
l(r,p)=i=1Nln(Γ(ki+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
최대 값을 구하려면 과 대한 부분 도함수를 취하여 0으로 설정합니다. 설정 및 설정 우리가 발견 : rp
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0p=i=1Nki(Nr+i=1Nki),
rl(r,p)=i=1Nψ(ki+r)ψ(아르 자형)+ln(아르 자형아르 자형+나는=1케이나는)=0.
이 방정식은 Newton 또는 EM을 사용하여 닫힌 형태로 r에 대해 풀 수 없습니다. 그러나이 상황에서는 그렇지 않습니다. 우리가 비록 정적을 얻기 위해 과거의 데이터를 사용하여 및 이 정말 우리의 프로세스와 같은 사용되지 않습니다, 우리는 우리가 포아송를 사용하여 않았다 같은 시간에 이러한 매개 변수를 적용 할 필요가있다. 아르 자형

1
왜 데이터를 Poisson 또는 Negative Binomial Regression 모델에 연결하지 않겠습니까?
Stats 학생

1
나는 그것이한다고 생각하지 않습니다 사용될 수 있습니다. 포아송이 음 이항의 제한적인 경우라는 점을 염두에두고, 포아송에서했던 것과 비슷한 방식으로이 문제를 매개 변수화하는 방법이 있어야합니다. 또한이 프로세스는 수천 개의 차이 프로세스에 대해 동시에 발생하며 동일한 "이벤트 속도"가 아닙니다. 즉, 이러한 매개 변수에 대한 회귀 분석은 모든 라이브 프로세스에 대한 모든 새로운 관찰에서 수행되어야합니다. 이것은 불가능합니다. 내 질문과 의견을 읽어 주셔서 감사합니다. 가장 감사합니다 ...
MoonKnight

1
, NB에 포아송 연결의 관점에서 당신이 가지고있는 경우 분산 변수를 통해 숨겨진와 그래서 및 입니다. 이것은 를 통합 할 때 한계 NB 분포를 제공합니다 . 이것을 사용하여 도움을 줄 수 있습니다. (엑스|λ,아르 자형,)영형나는에스(λ)(|아르 자형)에이에이(아르 자형,아르 자형)이자형()=1V에이아르 자형()=아르 자형1
확률

그것은 큰 도움이지만, 이것을 조금 더 육체로 만들 수 있고 명확한 세부 사항을 제공 할 수 있습니까? 시간 내 주셔서 대단히 감사합니다 ...
MoonKnight

1
음 이항이 아닌 이항을 사용하는 것은 어떻습니까? 그것은 더 쉬울 수 있습니다. Anscombe FJ. 포아송, 이항 및 음 이항 데이터의 변환. Biometrika. 1948; 35 : 246-54.
Carl

답변:


1

음 이항 분포는 이항 확률 모델과 매우 유사합니다. 다음 가정 (조건)이 양호 할 때 적용 가능하다. 1) C가 달성 될 때까지 일정한 수의 성공을 달성 할 때까지 동일한 조건에서 모든 실험을 수행한다. 2) 각 실험의 결과는 두 가지 범주 중 하나로 분류 될 수있다. , 성공 또는 실패 3) 각각의 실험에서 성공 확률 P는 동일하다. 첫 번째 조건은 이항과 음 이항 사이의 유일한 주요 차별화 요소입니다.


0

포아송 분포는 다음과 같은 특정 조건 하에서 이항식의 합리적인 근사치 일 수 있습니다. 1) 각 시행의 성공 확률은 매우 작습니다. P-> 0 2) np = m (say) is finete 통계 학자들이 가장 자주 사용하는 규칙은 포아송이 n이 20 이상이고 p가 5보다 작거나 같을 때 이항의 근사치라는 것입니다. %

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.