포아송 분포에 대한 정규 근사


12

Wikipedia에서는 다음 과 같이 말합니다.

충분히 큰 λ 값 (예 : λ>1000 )의 경우 평균 λ 및 분산 λ (표준 편차 λ ) 의 정규 분포 는 포아송 분포에 대한 근사치입니다. 경우 λ 약 10보다 큰 적절한 연속성 보정, 즉, 실행되는 경우, 정규 분포는 양호한 근사치 인 P(Xx), (소문자) 여기서 x 음이 아닌 정수로 교체하고, P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

불행히도 이것은 인용되지 않았습니다. 나는 이것을 약간의 엄격함으로 보여주고 증명할 수 있기를 원합니다. 실제로 \ lambda> 1000 일 때 정규 분포가 좋은 근사 라고 어떻게 말할 수 있습니까?이 '우수한'근사를 어떻게 정량화합니까? 어떤 측정이 사용 되었습니까?λ>1000

나는이 함께있어 먼은 여기 요한이 베리 Esseen 정리를 사용하는 방법에 대한 이야기와 두 CDFS에 오류를 근사 곳. 내가 볼 수 있듯이 그는 λ1000 값을 시도하지 않습니다 .


6
'good'을 정의 하지 않으면 증명할 수 없습니다 . (점근 적 결과를 증명할 수는 있지만 기준을 정의하지 않고 특정 표본 크기에서 '좋음'으로 선언 할 수는 없습니다.) 직접 예를 통해 그 행동을 보여줄 수 있습니다 (사람들이 '좋은'방법을 볼 수 있음) 그들 자신의 빛에 의한 것입니다). 사람들이 사용하는 일반적인 기준의 경우 연속성 수정은 꼬리에 깊숙이 들어 가지 않는 한 대해 잘 작동합니다 . λ>10
Glen_b-복지 모니카

1
(더 구체적으로 말하면, 기준이 절대 오차라면 10과 같은 작은 표본 크기에서 모든 곳에서 '좋은'결과를 얻을 수 있지만 대부분의 사람들은 상대 오차에 가까운 것에 관심이 있습니다)
Glen_b -Reinstate Monica

답변:


7

가 매개 변수 인 Poisson 이고 가 mean 및 variance 정상 이라고 가정 합니다. 적절한 비교는 과 입니다. 여기에서는 간단히하기 위해 이라고 씁니다 . 즉, 이 평균에서 표준 편차에 해당 할 때 관심 이 있습니다.XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

그래서 나는 속였다. 나는 Mathematica를 사용했습니다. 따라서 및 은 를 . 그러나 그들의 차이에 점근 적이다 이면 이것을 의 함수로 플로팅하면 http://www.johndcook.com/blog/normal_approx_to_poisson/ 의 두 번째에서 마지막 그림과 같은 곡선이 나타납니다 .Pr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

내가 사용한 명령은 다음과 같습니다.

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

또한 약간의 실험을 통해 대한 더 나은 점근 적 근사 가 . 그러면 오류는 약 배 더 작습니다.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b는 "좋은 적합"이 매우 주관적인 개념이라는 점에서 정확합니다. 그러나 포아송 분포가 합리적으로 정상임을 검증하려면 귀무 가설이 가정 Kolmorgov-Smirnov 검정을 사용할 수 있습니다 . CDF는 분포 에서 나온 것으로 가정합니다. 샘플은 poisson ( ) 에서 나옵니다 . 실제로 표본을 테스트하는 것이 아니라 다른 분포를 대상으로 한 분포이므로,이 가설 검정에 대해 가정 한 표본 크기 및 유의 수준에 대해 신중하게 생각해야합니다 (일반적인 방식으로 KS 검정을 사용하지 않기 때문). 그건:H0:N(λ,λ)λ

  • 대표적이고 가정적인 표본 크기 n을 선택하고 검정의 유의 수준을 일반적인 값 (예 : 5 %)으로 조정합니다.

이제 데이터가 실제로 poisson ( ) 에서 온 것으로 가정하여이 테스트의 유형 II 오류율을 계산하십시오 . 정규 분포에 대한 적합도는이 유형 II 오류율입니다. 특정 포아송 분포에서 크기 n의 표본은 평균적 으로 선택한 시간에 KS 정규성 검정에 의해 시간의 %를 받아 들일 것이라는 점 에서 중요성 수준.λβ

어쨌든, 그것은 "적합성"에 대한 감각을 얻는 방법 중 하나 일뿐입니다. 그러나 모든 사람들은 당신이 스스로 정의해야 할 "선"의 주관적인 개념에 의존합니다.


2

이항 분포에서 파생하면 약간의 통찰력을 얻을 수 있습니다.

이항 랜덤 변수가 있습니다;

p(x)=(nx)px(1p)nx

대안 적으로 재귀 적으로 계산 될 수 있습니다.

p(x)=(nx+1)px(1p)p(x1)

초기 상태를 유지하면;

p(0)=(1p)n

이제 이 크고 가 작지만 의 평균 성공 은 일정 하다고 가정합니다 . 그런 다음 다음을 수행 할 수 있습니다.npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

우리는 합니다.p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

우리는 몇 가지 변수를 바꾸고 평가합니다.

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

미적분학에서 우리는 입니다. 또한 상단과 하단이 모두 차수 다항식이므로 이라는 것도 알고 있습니다.limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

이것은 라는 결론으로 ​​이어진다 .n

P(X=i)eλλii!

그런 다음 정의를 통해 및 확인할 수 있습니다 . 연속성을 수정 하는 한 이항 분포가 De Moivre-Laplace 정리 의 조건 하에서 법선에 근사한다는 것을 알고 있으므로 가 로 바뀝니다. .E(X)=λVar(X)=λP(Xx)P(Xx+0.5)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.