종속 데이터에 대한 Bernoulli 랜덤 변수의 합을 모델링하는 방법은 무엇입니까?


9

나는 거의 같은 질문을 가지고 있습니다 : Bernoulli 랜덤 변수의 합을 효율적으로 모델링 할 수 있습니까?

그러나 설정은 매우 다릅니다.

  1. S=i=1,NXi , , ~ 20, ~ 0.1P(Xi=1)=piNpi

  2. Bernoulli 랜덤 변수의 결과에 대한 데이터가 있습니다 : ,Xi,jSj=i=1,NXi,j

  3. 최대 우도 추정값을 사용 하여 를 추정하고 얻는 다면 가 훨씬 큽니다. 다른 기준에 따라 예상됩니다 :pip^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. 따라서 및 는 독립적으로 취급 될 수 없습니다 (의존성이 적음).XiXj (j>k)

  5. 이와 같은 몇몇 제약을가있다 : 및 (알려진)의 추정에 도움이되는 .pi+1pis2P^{S=s}=AP{S}

이 경우 Bernoulli 랜덤 변수의 합을 어떻게 모형화 할 수 있습니까?

과제를 해결하는 데 어떤 문헌이 도움이 될 수 있습니까?

업데이트

몇 가지 추가 아이디어가 있습니다.

(1) 사이의 미지의 의존성이 1 회 이상 연속 성공한 후에 시작 한다고 가정 할 수 있습니다. 따라서 이면 및 입니다.Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2) MLE를 사용하려면 가장 의심스러운 모델이 필요합니다. 변형은 다음과 같습니다.

P{X1,...,Xk}=(1p1)...(1pk)모든 k 대해 경우 경우 및 이고 모든 k에 대해 .i=1,kXi=0P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

우리에만 관심이 있기 때문에 (3) 우리가 설정할 수있는 ( 꼬리에서 N- (k + 1) +1 소환에 대한 성공 확률) 그리고 매개 변수화P{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4) 매개 변수 및 따라 모델에 MLE을 사용하십시오 와 에 대한 (및 )과 다른 제약을 네이티브 .p1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

이 계획으로 모든 것이 괜찮습니까?

업데이트 2

포아송 분포 (파란색)와 비교 한 경험적 분포 (빨간색) 의 일부 예 (푸 아송 평균은 2.22 및 2.45, 표본 크기는 332 및 259) :P{S}

샘플 1 샘플 2

포아송 평균 2.28 및 2.51 (샘플 크기는 303 및 249) 인 샘플 (A1, A2)의 경우 :

샘플 3 샘플 4

결합 된 samlpe A1 + A2 (샘플 크기는 552) :

샘플 3 + 샘플 4

Poisson에 대한 일부 수정이 가장 좋은 모델이어야합니다 :).


2
무엇 ? Xi,j
chl

1
@Andrey (2)의 공식과 (4)의 두 번째 제약은 의미가 없습니다. (4)에서 모자의 의미는 무엇입니까? 는 무엇입니까 ? ( 아닌 만 정의 .) (4)의 표현은 세 제품 또는 다른 것의 합계 입니까? SSjS
whuber

Xi,j 는 Bernoulli 랜덤 결과 (j 번째 시리즈의 i 번째 결과)이고 는 합계의 j 번째 결과 (계열에 걸친 합계)입니다. 는 합의 랜덤 변수입니다. (4)의 모자는 추정치를 의미합니다. 따라서 의 최저값 합계에 대한 추가 정보가 있습니다. 혼란을 드려 죄송합니다. SjSS
Andrey

답변:


3

한 가지 방법은 일반 선형 모델 (GLM)로 모델링하는 것입니다. 여기에서는 최근 관측 이력의 (물리적 선형) 함수로 번째 시도 에서 성공할 확률 인 공식화 합니다. 따라서 잡음이 Bernoulli이고 링크 기능이 로짓 인 자동 회귀 GLM을 기본적으로 맞 춥니 다. 설정은 다음과 같습니다Xpii

pi=f(b+a1Xi1+a2Xi2+akXik) 여기서

f(x)=11+exp(x)

XiBernoulli(pi)

모형의 모수는 로 로지스틱 회귀로 추정 할 수 있습니다. (각 시행에서 관측 히스토리의 관련 부분을 사용하여 설계 행렬을 설정하고이를 로지스틱 회귀 추정 함수에 전달하면 로그 가능성이 오목하므로 매개 변수에 대해 고유 한 최대 값을 갖습니다). 결과가 실제로 독립적이라면 는 0으로 설정됩니다. 양수 는 성공이 관찰 될 때마다 후속 의 증가를 의미합니다 .{b,a1,ak}aiaipi

이 모델 에 대한 확률에 대한 간단한 표현을 제공 하지 않지만 , 모델이 단순한 Markovian 구조를 가지고 있기 때문에 시뮬레이션 (입자 필터링 또는 MCMC)으로 계산하기 쉽습니다.Xi

이러한 종류의 모델은 뇌에서 뉴런의 "스파이크"사이의 시간적 의존성을 모델링하는 데 큰 성공을 거두었으며, 자기 회귀 포인트 프로세스 모델에 대한 광범위한 문헌이 있습니다. 예를 들어 Truccolo et al 2005를 참조하십시오 (이 문서는 Bernoulli 가능성 대신 Poisson을 사용하지만 하나의 매핑이 간단합니다).


1

의존성이 럼핑으로 인해 발생하는 경우 복합 포아송 모델이 모델로 솔루션이 될 수 있습니다 . 다소 랜덤 기준은 이와 바버 및 Chryssaphinou 의해.Sj

완전히 다른 방향으로, 이 20이고 상대적으로 작다는 것을 나타 내기 때문에 의 그래픽 모델을 구축하는 것이 될 수 있지만 설정 및 데이터가 가능한지 모르겠습니다. @chl이 언급했듯이 무엇인지 설명하면 유용합니다 .NXijXi,j

는 IF 의이 시간이 지남에 따라 예를 들어, 연속 측정을 대표하고, 의존,이에 세 번째 가능성을 관련 - 일부에 위의 두 가지 제안을 사이에 타협을 확장 -의 숨겨진 마르코프 모델을 사용하는 것입니다 의.Xi,jXi,j


Xi,j 는 Bernoulli 랜덤 결과입니다. 부정확해서 죄송합니다. 따라서 는 동일한 시간 간격 동안 스포츠 팀의 점수 합계입니다. 첫 번째 골이 득점 된 후에는 다음 골의 간격에서 확률이 다름을 알 수 있습니다. Xi
Andrey
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.