포아송 분포가 이항 분포의 제한적인 사례 인 이유를 직관적으로 이해


14

DS Sivia의 "데이터 분석"에는 이항 분포에서 푸 아송 분포가 도출됩니다.

그들은 푸 ​​아송 분포가 M 일 때 이항 분포의 제한적인 경우라고 주장하며 , 여기서 M 은 시행 횟수입니다.

질문 1 : 그 주장을 직관적으로 이해할 수있는 방법은 무엇입니까?

질문 2 : 왜 M 최대 한계가 M 입니까 !M NM!N!(MN)! 과 동일M시행MNN!에서N은 성공 횟수입니다. 이 단계는 파생에서 사용됩니다.M


답변:


5

간단한 직관적 인 설명을 시도하겠습니다. 이항 난수 변수 XBin(n,p) 대해 우리는 np 이고 분산은 np(1p) 입니다. 이제 생각 X 매우 많은 수의에서 이벤트의 수를 기록 n 시험, 아주 작은 확률 각각의 p 우리는 매우 가까운이되도록, 1p=1 (정말 ). 그러면 우리는 np=λ즉, np(1p)np1=λ 이므로 평균과 분산은 모두 와 같습니다 λ. 포아송 분포 랜덤 변수의 경우 항상 평균과 분산이 같습니다. 그것은 적어도 포아송 근사에 대한 타당성 주장이지만 증거는 아닙니다.

그런 다음 실제 관점에서 포아송 포인트 프로세스 https://en.wikipedia.org/wiki/Poisson_point_process 를 다른 관점에서 살펴보십시오 . 이것은 규칙에 따라 임의의 점이 발생하면 얻는 선상의 임의 점의 분포입니다.

  1. 분리 된 간격의 포인트는 독립적입니다
  2. 매우 짧은 간격의 랜덤 포인트 확률은 간격 길이에 비례합니다
  3. 매우 짧은 간격으로 두 개 이상의 점이 발생할 확률은 본질적으로 0입니다.

그런 다음 주어진 간격 (점수는 아님)의 포인트 수 분포는 포아송 (파라미터 λ 가 길이에 비례)입니다. 이제이 구간을 매우 짧고 매우 짧은 하위 구간 ( n )으로 나누면 주어진 하위 구간에서 두 개 이상의 점이 될 확률은 본질적으로 0이므로 숫자는 매우 근사한 베르 놀리 분포를 가지게됩니다. 즉, Bin(1,p) 이므로이 모든 합은 Bin(n,p) 이므로 해당 (긴) 간격에서 포인트 수의 포아송 분포를 근사화합니다.

@Ytsen de Boer (OP)에서 편집 : 질문 번호 2는 @ Łukasz Grad가 만족스럽게 대답합니다.


6

대체 휴리스틱을 제공하겠습니다. 포아송 프로세스를 이항으로 근사하는 방법을 보여줄 것입니다 (그리고 근사치가 낮은 확률로 많은 시행에서 더 좋다고 주장합니다). 따라서 이항 분포는 포아송 분포에 대한 경향이 있어야합니다.

일정 속도로 이벤트가 발생한다고 가정 해 봅시다. 예상되는 이벤트 수가 λ 임을 알고 하루에 발생한 이벤트 수의 분포를 알고 싶습니다 .

시간당 예상되는 이벤트 수는 λ/24 입니다. 이는 주어진 시간에 이벤트가 발생할 확률이 λ/24 임을 가정 합니다. [정확하지는 않지만 기본적으로 λ/241 이면 기본적으로 여러 시간 동안 여러 이벤트가 발생하지 않는다고 가정하면 괜찮은 근사치입니다 ]. 그런 다음 우리는 성공 확률이 λ / 24 인 M=24 시행 으로 이항 수로 사건 수의 분포를 근사화 할 수 있습니다 .λ/24

구간을 분으로 전환하여 근사치를 개선합니다. 그런 다음 p=λ/1440 이고 M=1440 시험입니다. 경우 λ 주위에, 우리는 어떤 분은 두 사건이 없었다 꽤 확신 할 수 있습니다, (10)을 말한다.

물론 우리가 초로 전환하면 더 좋아집니다. 이제 우리는 각각 작은 확률 λ / 86400의 M=86400 이벤트를 보고 있습니다. λ/86400

당신의 얼마나 큰 상관없이 λ 있다, 나는 결국 작은만큼 선택할 수 있습니다 Δt 매우 가능성이 두 개의 이벤트가 같은 간격 일이 없다는 것을의 있도록합니다. 그런 다음에 해당하는 이항 분포 Δt 진정한 포아송 분포 훌륭한 경기가 될 것입니다.

이들이 정확히 동일하지 않은 유일한 이유는 두 이벤트가 동일한 시간 간격으로 발생할 가능성이 0이 아니기 때문입니다. 그러나이 단지 주위 주어진 λ 이벤트 그들이보다 훨씬 더 빈의 어떤 수에 분포되어 λ , 그들 중 두 사람은 같은 빈 거짓말 가능성이다.

즉, 성공 확률이 p = λ / M 인 경우 이항 분포는 푸 아송 분포를 M 는 경향이 있습니다.p=λ/M


5

질문 1

이항 분포의 정의를 상기하십시오.

각각의 성공 확률이 동일한 주어진 횟수의 시도 에서 가능한 수의 성공적인 결과의 빈도 분포 .

이것을 포아송 분포의 정의와 비교하십시오.

고정 된 시간 에 다수의 독립적 인 사건이 발생할 확률을 제공하는 이산 주파수 분포 .

2 사이의 실질적인 차이는 이항식이 시도이고, 포아송은 기간 t에 걸쳐 있다는 것이다. 한계가 어떻게 직관적으로 발생할 수 있습니까?nt

영원 토록 베르누이 (Beroulli) 시련을 계속 실행해야한다고 가정 해 봅시다. 또한 분당 을 실행 합니다. 분당 당신은 각 성공을 계산합니다. 따라서 모든 영원에 대해 매분마다 B i n ( p , 30 ) 프로세스를 실행합니다 . 24 시간 이상, 당신은이 B를 내가 N ( p는 , 43200 ) .n=30Bin(p,30)Bin(p,43200)

피곤할 때 "18:00에서 19:00 사이에 얼마나 많은 성공이 있었습니까?"라는 질문을받습니다. 답은 일 수 있습니다. 즉 한 시간 내에 평균 성공을 제공합니다. 그것은 Poisson 매개 변수 λ 와 비슷합니다 .3060pλ


5

질문 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

따라서 고정 N에 대한 제한을N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1. 나는 스털링의 근사를 보면서 시작했지만 원을 그리며 달리기 시작했습니다. 당신은 접근 방식이 훨씬 간단합니다.

나는 이것이 OP가 직관적으로 찾게 될 것이라고 생각하지 않는다 ...
kjetil b halvorsen

나는 가능한 간단한 수학을 사용하려고 @kjetilbhalvorsen, 직관적으로 대형에 대한 우리는이 M M를 - K 에 대한 고정 K < < MMMMkk<<M
의 Łukasz 대학원

1
@kjetilbhalvorsen 이것은 Q1 (직관적 인 설명)이 아닌 Q2 (파생 단계)에 대한 답변입니다.
Ben Bolker

@TemplateRex 흠하지만 난 점마다 수렴을 입증 할 때 난 단지마다 고정을 위해 그것을 증명할 필요가 있다고 생각 으로, M은 그것은 infiity로 이동되지 않는 이유는 무엇입니까? 즉 ω Ω LIM m X m ( ω ) X ( ω )NMωΩlimmXm(ω)X(ω)
의 Łukasz 대학원

5

문제는 이항 분포의 제한적인 경우로 포아송을 특성화하는 것이 명시된 바와 같이 정확하지 않다는 것 입니다.

포아송은 다음 경우에 이항의 제한적인 경우입니다.

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

예를 들어 성공 확률 p로 각각 의 일련의 독립적 인 Bernoulli 시행 을 모형화하고 성공 횟수 X 의 분포가 M 로 어떻게 발생하는지 살펴 보자 . 어떤 옵션 N 우리 큰로서주세요 작은 아무리 p가 , 성공의 예상 개수 E [ X ] = M P > N 에 대한 M > N / P는MpXMNpE[X]=Mp>NM>N/p. 성공 확률이 아무리 높더라도 결과를 충분히 많이 수행하면 원하는만큼의 평균 성공 횟수를 달성 할 수 있습니다. 따라서 (또는 " M 이 크다")는 X에 대한 포아송 모델을 정당화하기에 충분하지 않습니다 .MMX

Pr [ X = x ] = e λ λ x 를 대수적으로 설정하는 것은 어렵지 않습니다.

Pr[X=x]=eλλxx!,x=0,1,2,
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.

0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.


-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.


2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen

I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.