공을 쓰레기통에 던지기, 확률의 하한 추정


14

비록 숙제처럼 보이지는 않습니다. 모든 참조를 환영합니다. :-)

시나리오 : 있다 n 다른 공 및 n 서로 다른 (1 ~ labled 쓰레기통 n 왼쪽에서 오른쪽으로). 각 공은 독립적으로 통에 던져집니다. 하자 f(i) 에서 볼 수있을 i ~ 일 빈. Ei 가 다음과 같은 사건을 나타내도록 하자 .

ji , kjf(k)j1

즉, 제이며, j 빈들 (가장 왼쪽 j 빈들) 미만 포함 j 각각에, 볼 ji .

질문 : 예상 i<nPr(Ei) 의 관점에서 n ? n 이 무한대가 될 때 . 하한이 바람직하다. 나는 쉽게 계산 된 공식이 존재하지 않는다고 생각합니다.

예 : . 참고Pr(En)=0.limnPr(E1)=limn(n1n)n=1ePr(En)=0

내 추측 : 나는 n 이 무한대로 갈 때 같아요 . 요약에서 첫 번째 ln n 항목을 고려했습니다 .i<nPr(Ei)=lnnnlnn


1
생일 문제의 하위 사례처럼 보입니다 ..
Gopi

@Gopi 나는 나의 질문이 제한된 생일 문제라는 것을 스스로 확신 할 수 없다. 명시 적으로 설명해 주시겠습니까? 대단히 감사합니다. 참고 : 구속 조건은 특정 구간의 구간 수가 아니라 첫 번째 구간 의 공 합계 에 대한 것입니다. j
Peng Zhang

실제로, 나의 나쁜, 생일 문제에 관한 위키피디아 기사를 다시 읽은 후에 나는 생일 문제에서 적응 된 다른 문제를 고려하고 있다는 것을 깨달았다.
Gopi

2
일부 잘못된 아이디어 ... 상태를 인코딩하는 방법에 대해 생각해보십시오. 왼쪽에서 오른쪽으로 휴지통을 읽으십시오. 첫 번째 빈에 i 볼이 있으면 i 개의 시퀀스를 출력 한 다음 0을 출력합니다. 모든 빈에 대해 왼쪽에서 오른쪽으로이 작업을 수행하십시오. 당신은 가장 큰 i에 관심이있는 것처럼 보입니다.이 바이너리 문자열 (n 0과 n 1을 갖는)은 처음으로 0보다 많은 1을 포함합니다. 이제, 동일한 확률로 0과 1을 운명의 도약을하고 생성 할 수 있습니다 . (완전한 말도 안될 수도 있습니다). 이 문제는 카탈로니아 어 숫자 및 Dyck 단어와 관련이 있습니다. 과...??? 1/2
Sariel Har

4
나는 당신의 신념에서 볼이 다른 것이 왜 중요한지 알지 못합니다. 또한 문자열 intepetation은 bin이 다르다는 사실을 이해합니다.
Sariel Har

답변:


11

편집 : (2014-08-08) Douglas Zare가 의견에서 지적했듯이 아래의 주장, 특히 두 확률 사이의 '브리지'는 올바르지 않습니다. 나는 그것을 고칠 수있는 직접적인 방법을 보지 못했다. 나는 아직도 약간의 직관을 제공 믿고 여기에 답을두고 있지만, 알 입니다 하지 일반적으로 사실.

Pr(Em)l=1mPr(Fl)

이것은 완전한 대답은 아니지만 나 자신보다 더 많은 지식을 갖춘 사람이 끝낼 수있는 충분한 콘텐츠를 보유하게되기를 바랍니다.

정확히 공이 첫 번째 l ( n 개 ) 빈 으로 떨어지는 확률을 고려하십시오 .kln

(nk)(ln)k(nln)nk

보다 적은 볼이 첫 lF l에 속할 확률을 말 하십시오 .llFl

Pr(Fl)=k=0l1(nk)(ln)k(nln)nk

위의 사건 이 발생할 확률은 각 F l 사건이 독립적으로 그리고 한 번에 모두 발생하는 것으로 간주하는 경우보다 적습니다 . 이것은 우리에게 둘 사이의 다리를 제공합니다 :ElFl

Pr(Em)l=1mPr(Fl)=l=1m(k=1l1(nk)(lnk)(nln)nk)=l=1mF(l1;n,ln)

여기서 은 IS이항 분포의 누적 분포 함수P=L가F(l1;n,ln) . 그냥 위키 백과 페이지 아래로 몇 줄을 읽고, 그 지적(L-1P는N을), 우리가 사용할 수 있습니다Chernoff의 불평등을얻을 :p=ln(l1pn)

Pr(Em)l=1mexp[12l]=exp[12l=1m1l]=exp[12Hm]exp[12(12m+ln(m)+γ)]

여기서 은 IS m 번째 ' 고조파 번호 , γ 오일러 - 마스케 로니 상수와위한 부등식이다 H의 m 페이지 링크 볼프람의 매스 월드에서 촬영된다.HmmγHm

계수 에 대해 걱정하지 않고 마침내 다음과 같이됩니다.e1/4m

Pr(Em)eγ/2m

다음은 e - γ / 2 함수를 사용하여 m 의 함수로 대한 평균 100,000 개의 인스턴스에 대한 로그 로그 도표입니다.n=2048m 은 참고 용으로도 작성되었습니다.eγ/2m

enter image description here

상수가 꺼져있는 동안 함수 형태가 올바른 것 같습니다.

다음은 각 점이 m 의 함수로서 평균 100,000 개의 인스턴스 인 을 변경하는 로그 로그 도표입니다 .nm

enter image description here

마지막으로, 우리는 : 우리는 :Pr(Em)1m

i<nPr(Ei)n

수치 검증으로서, 아래는 합계 에 대한 인스턴스 로그 n 의 로그-로그 플롯입니다 . 각 포인트는 100,000 개의 인스턴스 합계의 평균을 나타냅니다. 함수 x 1 / 2 는 참조 용으로 플롯되었습니다.Snx1/2

enter image description here

이 둘 사이에 직접적인 연관성이 없지만이 문제의 속임수와 최종 형태는 처음에 의견에서 추측 한 것처럼 생일 문제와 공통점이 많습니다.


4
당신은 어떻게받을 수 있나요 ? 예를 들어, n = 100의 경우 , P r ( E 2 ) = 0.267946 > 0.14761 = P r ( F 1 ) P r ( F 2 )로 계산 합니다.Pr(E2)Pr(F1)×Pr(F2)n=100Pr(E2)=0.267946>0.14761=Pr(F1)Pr(F2). If you are told that the first bin is empty, does this make it more or less likely that the first two bins hold at most 1 ball? It's more likely, so Pr(F1)Pr(F2) is an underestimate.
Douglas Zare

@DouglasZare, I've verified your calculations, you're correct. Serves me right for not being more rigorous.
user834

15

The answer is Θ(n).

En1

nnknk1e1k!.

Now, let's look at a different way of distributing balls into bins. We throw a number of balls into each bin chosen from the Poisson distribution, and condition on the event that there are n balls total. I claim that this gives exactly the same distribution as throwing n balls into n bins. Why? It is easy to see that the probability of having kj balls in the jth bin is proportional to j=1n1kj! in both distributions.

So let's consider a random walk where at each step, you go from t to t+1k with probability 1e1k!. I claim that if you condition on the event that this random walk returns to 0 after n steps, the probability that this random always stays above 0 is the probability that the OP wants to calculate. Why? This height of this random walk after s steps is s minus the number of balls in the first s bins.

If we had chosen a random walk with a probability of 12 of going up or down 1 on each step, this would be the classical ballot problem, for which the answer is 12(n1). This is a variant of the ballot problem which has been studied (see this paper), and the answer is still Θ(1n). I don't know whether there is an easy way to compute the constant for the Θ(1n) for this case.

The same paper shows that when the random walk is conditioned to end at height k, the probability of always staying positive is Θ(k/n) as long as k=O(n). This fact will let us estimate Es for any s.

I'm going to be a little handwavy for the rest of my answer, but standard probability techniques can be used to make this rigorous.

We know that as n goes to , this random walk converges to a Brownian bridge, i.e., Brownian motion conditioned to start and end at 0. From general probability theorems, for ϵn<s<(1ϵ)n, the random walk is roughly Θ(n) away from the x-axis. In the case it has height t>0, the probability that it has stayed above 0 for the entire time before s is Θ(t/s). Since t is likely to be Θ(n) when s=Θ(n), we have EsΘ(1/n).


4

[Edit 2014-08-13: Thanks to a comment by Peter Shor, I have changed my estimate of the asymptotic growth rate of this series.]

My belief is that limni<nPr(Ei) grows as n. I do not have a proof but I think I have a convincing argument.

Let Bi=f(i) be a random variable that gives the number of balls in bin i. Let Bi,j=k=ijBk be a random variable that gives the total number of balls in bins i through j inclusive.

You can now write Pr(Ei)=b<jPr(EjB1,j=b)Pr(EiEjB1,j=b) for any j<i. To that end, let's introduce the functions π and gi.

π(j,k,b)=Pr(Bj=kB1,j1=b)=(nbk)(1nj+1)k(njnj+1)nbk

gi(j,k,b)=Pr(EiBj,ikEj1B1,j1=b)={0k<01k>=0j>il=0jb1π(j,l,b)gi(j+1,kl,b+l)otherwise

We can write Pr(Ei) in terms of gi:

Pr(Ei)=gi(1,i1,0)

Now, it's clear from the definition of gi that

Pr(Ei)=(ni)ni+1nnhi(n)

where hi(n) is a polynomial in n of degree i1. This makes some intuitive sense too; at least ni+1 balls will have to be put in one of the (i+1)th through nth bins (of which there are ni).

Since we're only talking about Pr(Ei) when n, only the lead coefficient of hi(n) is relevant; let's call this coefficient ai. Then

limnPr(Ei)=aiei

How do we compute ai? Well, this is where I'll do a little handwaving. If you work out the first few Ei, you'll see that a pattern emerges in the computation of this coefficient. You can write it as

ai=μi(1,i1,0)
where
μi(j,k,b)={0k<01k>=0i>jl=0jb11l!μi(j+1,kl,b+l)otherwise

Now, I wasn't able to derive a closed-form equivalent directly, but I computed the first 20 values of Pr(Ei):

N       a_i/e^i
1       0.367879
2       0.270671
3       0.224042
4       0.195367
5       0.175467
6       0.160623
7       0.149003
8       0.139587
9       0.131756
10      0.12511
11      0.119378
12      0.114368
13      0.10994
14      0.105989
15      0.102436
16      0.0992175
17      0.0962846
18      0.0935973
19      0.0911231
20      0.0888353

Now, it turns out that

Pr(Ei)=iii!ei=Pois(i;i)

where Pois(i;λ) is the probability that a random variable X has value i when it's drawn from a Poisson distribution with mean λ. Thus we can write our sum as

limni=1nPr(Ei)=x=1xxx!ex

Wolfram Alpha tells me this series diverges. Peter Shor points out in a comment that Stirling's approximation allows us to estimate Pr(Ei):

limnPr(Ex)=xxx!ex12πx

Let

ϕ(x)=12πx

Since

  • limxϕ(x)ϕ(x+1)=1
  • ϕ(x) is decreasing
  • 1nϕ(x)dx as n

our series grows as 1nϕ(x)dx (See e.g. Theorem 2). That is,

i=1nPr(Ei)=Θ(n)

1
Wolfram Alpha is wrong. Use Stirling's formula. It says that, xx/(x!ex)1/2πx.
Peter Shor

@PeterShor Thanks! I've updated the conclusion thanks to your insight, and now I am in agreement with the other two answers. It's interesting to me to see 3 quite different approaches to this problem.
ruds

4

Exhaustively checking the first few terms (by examining all n^n cases) and a bit of lookup shows that the answer is https://oeis.org/A036276 / nn. This implies that the answer is n12π2.

More exactly, the answer is:

n!2nnk=0n2nkk!
and there is no closed-form answer.

Oeis is pretty awesome
Thomas Ahle
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.