이항 분포와 베타 분포의 관계


27

저는 통계 학자보다 프로그래머에 가깝기 때문에이 질문이 너무 순진하지 않기를 바랍니다.

임의의 시간에 프로그램 실행을 샘플링 할 때 발생합니다. 프로그램 상태의 N = 10 임의 시간 샘플을 취하면 Foo 함수가 실행되고 있음을 알 수 있습니다 (예 : 해당 샘플의 I = 3). Foo가 실행되는 시간 F의 실제 비율에 대해 알려주는 것에 관심이 있습니다.

나는 평균 F * N으로 이항 분포됨을 이해합니다. 또한 I와 N을 고려할 때 F는 베타 분포를 따릅니다. 사실 저는이 두 배포판 사이의 관계를 프로그램으로 확인했습니다.

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

문제는 관계에 대한 직관적 인 느낌이 없다는 것입니다. 왜 작동하는지 "사진"으로 볼 수 없습니다.

편집 : 모든 대답, 특히 @ whuber 's가 어려웠지만 여전히 통계가 필요했지만 순서 통계를 가져 오는 것이 매우 도움이되었습니다. 그럼에도 불구하고 더 기본적인 질문을해야한다는 것을 깨달았습니다 .I와 N을 감안할 때 F의 분포는 무엇입니까? 모두가 내가 알고있는 베타라고 지적했습니다. 나는 마침내 Wikipedia ( Conjugate prior )에서 그것이 겉 모습 인 것처럼 보였다Beta(I+1, N-I+1) . 프로그램으로 탐색 한 후 정답으로 보입니다. 그래서 내가 틀렸는 지 알고 싶습니다. 그리고 나는 여전히 위에 표시된 두 cdfs 사이의 관계, 왜 1을 합산하는지, 그리고 내가 정말로 알고 싶었던 것과 관련이 있다면 혼란 스럽습니다.


"실제로 알고 싶었던 것"이 "Foo가 실행되는 실제 시간의 비율"이면 이항 신뢰 구간 또는 (바이아의) 이항 신뢰 구간에 대해 묻습니다.
whuber

@ whuber : 글쎄, 나는 30 년 이상 무작위로 일시 중지 된 성능 조정 방법을 사용했으며 다른 사람들도 그것을 발견했습니다. 나는 사람들에게 두 개 이상의 임의 시간 샘플에서 어떤 조건이 맞으면 그것을 제거하면 상당한 시간을 절약 할 수 있다고 말했다. 우리가 베이지안을 미리 모른다고 가정 할 때, 분수의 좋은 점은 내가 명시 적으로 시도한 것입니다. 일반적인 불꽃은 다음과 같습니다. stackoverflow.com/questions/375913/…stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey

1
좋은 생각. 통계적 가정은 중단이 실행 상태와 독립적이며 이는 합리적인 가설입니다. 이항 신뢰 구간은 불확실성을 표현하기 위해 사용하는 좋은 도구입니다. 3/10 상황에서 실제 확률에 대한 대칭 양면 95 % CI는 [6.7 %, 65.2 %]입니다. 2/10 상황에서 간격은 [2.5 %, 55.6 %]. 이것은 넓은 범위입니다! 2/3에도 불구하고 하한은 여전히 ​​10 % 미만입니다. 여기에서 교훈은 상당히 드문 일이 두 번 일어날 수 있다는 것입니다.)
whuber

@ whuber : 감사합니다. 네가 옳아. 더 유용한 것은 기대 값입니다. 이전까지는 한 번만 볼 경우 프로그램이 무한한 (또는 지나치게 긴) 루프라는 것을 알지 않는 한 많이 알려주지 않는다고 지적 합니다.
Mike Dunlavey

나는 모든 답변과 의견이 분명히 깨달았고 정확하다고 생각하지만 @MikeDunlavey가 그의 원래 게시물에 넣은 흥미로운 평등에 대해서는 실제로 아무도 언급하지 않았습니다. 이 평등은 베타 위키 백과 en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function 에서 찾을 수 있지만 왜 그런지에 대한 설명은 없습니다.
bdeonovic

답변:


27

순서 통계 고려 의 독립 균일 분포로부터 그린다. 때문에 차 통계량은 베타 분포를 가지고 있다는 가능성 초과하지 않는 베타 일체로 주어진다 n + 1 x [ k ] px[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(왜 이런가? 여기에 엄격하지는 않지만 기억에 남을만한 데모가있다. 가 와 사이 에있을 확률은 균일 한 값 중 가 과 중 적어도 하나는 와 사이에 있고 나머지는 와 사이 에 있습니다. 무한 첫 번째 순서를 위해서는 정확히 하나의 값 (즉, 자체)는 와 사이에 있으므로x[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnk 값이 초과 합니다. 모든 값이 독립적이고 균일하므로이 확률은 비례합니다 . 의 첫번째 순서에 이 동일 베타 분포의 정확한 적분. 이라는 용어 는이 인수에서 다항식 계수 로 직접 계산하거나 다음과 같이 간접적으로 파생 할 수 있습니다. 적분의 정규화 상수.)p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

정의에 따르면 이벤트 는 값이 초과하지 않는 것 입니다. 마찬가지로, 값의 이상 이 초과하지 않습니다 .이 간단한 주장은 원하는 직관을 제공합니다. 동등한 진술의 확률은 이항 분포에 의해 주어진다.x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

요약하면 , 베타 적분은 이벤트 계산을 일련의 계산으로 나눕니다. 범위에서 이상의 값을 찾는 것은 일반적으로 이항 cdf로 계산할 확률이 서로 나뉩니다. 정확히 값이 범위에 있고 1 값이 가능한 모든 , 대해 범위 에 있고 가 무한 길이 인 독점적 인 경우 입니다 . 이러한 모든 "윈도우" 즉, 통합)를 합하면 이항 cdf와 같은 확률을 가져야합니다.k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

대체 텍스트


노력해 주셔서 감사합니다. 나는 이것이 "네이티브 혀"가 아니기 때문에 실제로 이것을 연구해야 할 것입니다. 또한, 나는 많은 달러 기호와 서식을보고 있습니다. 제가 모르는 것이 실제 수학처럼 보이나요?
마이크 던 라비

어떻게 된 거예요? 갑자기 수학이 나타 났고 여기에 입력하는 것이 정말 느려졌습니다.
마이크 던 라비


한 번 살펴보면 질문을 수정했습니다. 감사.
마이크 던 라비

1
조금 늦었지만 마침내 앉아서 논쟁을 재현 할 시간이 생겼습니다. 핵심은 "다항식 계수"였습니다. 나는 평범한 오래된 이항 계수를 사용하여 그것을 알아 내려고 시도했으며 모두 공을 던지고있었습니다. 좋은 답변을 보내 주셔서 다시 한 번 감사드립니다.
Mike Dunlavey가

12

이항의 pdf를 : 의 함수로, Beta의 pdf를 의 함수로 . 아마도 알 수 있습니다 와 대한 적절한 (정수) 선택으로 이것들은 동일합니다. 내가 알 수있는 한,이 관계에 대한 모든 것이 있습니다 : 가 이항 pdf에 들어가는 방식 은 베타 배포라고합니다.x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

나는 그것들이 거의 똑같아 보인다는 것을 알고 있지만, nx를 y로 대체하고 베타 pdf를 취하고 a-1을 x로 대체하고 b-1을 y로 대체하면 (x + y + 1)의 추가 인자를 얻습니다. 또는 n + 1. 즉 (x + y + 1)! / x! / y! * p ^ x * q ^ y입니다. 그것은 나를 버릴 정도로 충분 해 보입니다.
Mike Dunlavey

1
어쩌면 누군가가 완전한 반응을 보일 수도 있지만, "직관적 인"설명에서 우리는 관심 변수 ( 및 ) 에 의존하지 않는 상수 ( 과 같은 )를 항상 전파 할 수 있지만 pdf를 1에 추가 / 통합하십시오. "등호"표시를 "비례"표시로 바꾸십시오. n+1xp
Aniko

좋은 지적. 이해가 가까워지고 있다고 생각합니다. 나는 아직도 x는 P 분배에 대해 알려줍니다 무슨 말을 할 수 있도록 노력하고, 왜 그 두 CDFS는 1. 요약
마이크 Dunlavey

1
나는 "직관적 인"설명에 대해 다른 관점을 취합니다. 어떤 경우에는 상수에 대해 너무 신경 쓰지 않지만이 경우 문제 의 핵심 은 n이 아닌 n + 1이 나타나는 이유를 보는 것입니다. 이해하지 못하면 "직관"이 올바르지 않습니다.
whuber

한 번 살펴보면 질문을 수정했습니다. 감사.
Mike Dunlavey

5

언급했듯이 베타 분포는 시행 확률 매개 변수 분포를 나타내고 이항 분포는 결과 매개 변수 의 분포를 나타 냅니다. 질문을 다시 쓰면, 왜 즉, 관측치에 1을 더한 값이 관측치보다 클 확률은 다음과 같습니다. 관측 값에 1을 더한 값은 관측 값보다 큽니다.FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

나는 이것이 문제의 원래 공식을 직관하는 데 도움이되지 않을 수도 있지만, 적어도 두 분포가 동일한 매개 변수의 반복 된 베르누이 시행 모델을 사용하여 다른 모수의 행동을 설명하는 데 도움이 될 수 있음을 인정한다.


받아 주셔서 감사합니다. 모든 답변을 통해 질문에 대해 생각하고 내가 원하는 것을 더 잘 이해할 수 있습니다.
Mike Dunlavey

한 번 살펴보면 질문을 수정했습니다. 감사.
마이크 던 라비

1
수정과 관련하여 : 예, , 샘플링 간격이 각 관측치가 독립적이고 동일하게 분포 될만큼 충분히 길다면. 베이지안을 원하고 실제 비율이 될 것으로 예상되는 것에 대해 비 균일 사전 분포를 지정하려면 두 매개 변수에 다른 것을 추가 할 수 있습니다. FBeta(I+1,NI+1)
sesqu

@sesqu, 귀하의 답변이 어떻게 든 내 질문과 관련이 있습니까? stats.stackexchange.com/questions/147978/… ? 당신의 생각에 감사드립니다.
Vicent

1

베이지안 땅에서 베타 분포는 이항 분포의 p 모수에 대한 접합체입니다.


2
네, 그런데 왜 그런가요?
vonjd

1

다른 답변에 대해서는 언급 할 수 없으므로 내 답변을 만들어야합니다.

사후 = C * 가능성 * 우선 (C는 사후를 1에 통합시키는 상수)

가능성에 이항 분포를 사용하고 이전에 베타 분포를 사용하는 모형이 제공됩니다. Posterior를 생성하는이 둘의 곱은 베타 배포판이기도합니다. Prior와 Posterior는 모두 Beta이므로 켤레 분포 입니다. Prior (베타)는 가능성 (Binomial) 보다 먼저 켤레 라고 합니다. 예를 들어 Beta에 Normal을 곱하면 Posterior는 더 이상 Beta가 아닙니다. 요약하면 베타와 이항은 베이지안 추론에 자주 사용되는 두 분포입니다. Beta는 Binomial의 Conjugate Priority이지만 두 배포판은 다른 배포판의 하위 집합 또는 상위 집합이 아닙니다.

베이지안 추론의 핵심 아이디어는 매개 변수 p를 고정 된 것으로 취급하는 빈번한 추론 접근법과는 반대로 [0,1] 범위의 랜덤 변수로 매개 변수 p를 처리하는 것입니다. 베타 분포의 속성을 자세히 살펴보면 평균과 모드는 매개 변수 p와 관련이없는 및 의해서만 결정됩니다αβ . 이것이 유연성과 함께 베타가 일반적으로 선행으로 사용되는 이유입니다.


1

요약 : 종종 베타 배포판은 배포판 배포판이라고합니다! 그러나 의미는 무엇입니까?

그것은 본질적으로 고정 하고 를 의 함수로 생각할 수 있음을 의미합니다 . 아래 계산은 를 에서 조정할 때 이 에서 증가한다는 것 입니다. 각각의 증가율 정확히 그 순간 .n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

여기에 이미지 설명을 입력하십시오


하자 와 이항 확률 변수 나타내는 샘플과 성공 확률 . 우리는 기본 대수를 사용하여Bin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

또한 좋은 조합 증거가 있습니다. 운동으로 생각하십시오!

그래서 우리는 :

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
텔레 스코핑 시리즈이며 다음과 같이 단순화 할 수있는

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


비고 대화식 버전의 음모를 보려면 이것을보십시오 . 노트북을 다운로드하거나 바인더 링크를 사용할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.