CLT가


16

우리의 합 알고 그래서 매개 변수를 사용하여 물고기 자리 자체에 포아송입니다 . 따라서 가설 적으로 취할 수 있고 실제로 이라고 말할 수 있습니다 . 각 는 다음과 같습니다. , CLT가 작동하려면 큰 n을 사용하십시오.λ N λ X ~ P O I S S O n은 ( λ = 1 ) Σ n은 1 X I ~ P O I S S O N (nλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n)

이것은 (분명히) 작동하지 않습니다. CLT가 정규 변수에 "더 가까운"랜덤 변수에 대해 "빠르게"작동하는 방식과 관련이 있다고 가정하고, 람다가 작을수록 대부분 0 인 랜덤 변수를 얻을수록 다른 변수는 거의 변하지 않습니다.

그러나 내가 설명 한 것은 직관입니다. 이것이 왜 그런지를 설명하는보다 공식적인 방법이 있습니까?

감사!


6
우선 CLT에서는 i=1nxi 로 나눕니다.n (이 경우 가우시안에 수렴 됨).
Alex R.

1
@AlexR. 아니오 나누면 n표준 편차는 1 / 의 요소가됩니다.1/n
Aksakal

4
이 질문이 CLT "작동하지 않음"과 어떤 관련이 있는지 알 수 없습니다. CLT 는 주어진 분포 를 갖는 표준화 된 랜덤 변수의 과 관련이있는 반면, 단일 랜덤 변수를 취하여이를 여러 가지로 나눌 수있는 방법을 많이 고려 하고 있습니다.
whuber

2
@AlexR 설정이 잘못되었습니다. 여기에는 총합과 나눗셈이라는 두 가지 과정이 있으며 비슷한 점근 적 특성을 가져야한다고 생각할 이유가 없습니다.
whuber

3
@ Aksakal : 실제로 AlexR이 정확합니다. 나누면 n 로 변성 분포를 얻게 됩니다. √로 나누면nn , sd = 1을n로 정규 분포에 접근합니다. nn
Cliff AB

답변:


13

나는 혼란의 근본 원인이 CLT의 요약 점근선을 당신의 주장의 일종으로 나누는 것으로 보인다는 @whuber에 동의합니다. CLT에서 우리는 고정 분포 얻은 다음 그것으로부터 n 숫자 x i 그리고 합 ˉ x n = 1을 계산합니다f(x,λ)nxi . n을계속 증가 시키면흥미로운 일이 발생합니다. x¯n=1ni=1nxin 여기서μ,σ2는 평균 및 분포f(x)의 분산입니다.

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

당신이 포아송와 함께 할 제안하고 다소 거꾸로 : 대신에서 변수를 합산의 고정 유통, 당신이 원하는 분할 고정 에 분배 적 변화 부분. 환언하면 가변 받아 (A)로부터 고정 분포 F ( X , λ를 ) 다음 분할 로하여 X 내가 되도록 N Σ= 1 X IXxf(x,λ)xi

i=1nxix

CLT는이 과정에 대해 무엇을 말합니까? 아무것도. CLT에서 어떻게 우리가 변화했는지 , 그변화분포FN(X)하는 수렴고정분포N(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

설정에서 합계 와 분포 f ( x , λ ) 는 변하지 않습니다! 그들은 고정되어 있습니다. 그들은 변하지 않고 아무것도 수렴하지 않습니다. 따라서 CLT는 이에 대해 아무 말도하지 않습니다.xf(x,λ)

또한 CLT는 합계의 요소 수에 대해 아무 것도 말하지 않습니다. Poisson (0.001)에서 1000 개의 변수 합계를 가질 수 있으며 CLT는 합계에 대해 아무 것도 말하지 않습니다. 그것은 당신이 N을 계속 증가하면 어떤 시점 에서이 합계는 정규 분포처럼 보이기 시작한다는 것입니다 . 실제로 N = 1,000,000이면 정규 분포의 근사값을 얻게됩니다.1Ni=1Nxi,xiPoisson(0.001)

직감은 합계의 요소 수에 대해서만 옳습니다. 즉, 시작 분포가 정규 분포와 다른 것보다 많으면 정규화하기 위해 더 많은 요소를 합산해야합니다. : 더 많은 형식 (하지만 여전히 비공식적 인) 방법은 푸 아송의 특성 기능을 보면 될 것이다 당신이 경우 λ > > 1 , 당신은 테일러 확장을 얻을 (WRT의 t ) 중첩 지수 : EXP ( I λ t - λ / 2 t (2)

exp(λ(exp(it)1))
λ>>1t 정규 분포 N ( λ , λ 2 ) 의 특성 함수입니다.
exp(iλtλ/2t2)
N(λ,λ2)

그러나 직감이 올바르게 적용되지 않습니다 .CLT의 합산을 일종의 나눗셈으로 바꾸면 문제가 발생하여 CLT가 적용되지 않습니다.


+1 준비 ​​자료는 훌륭하게 표현되어 있으며 매우 명확하며 문제의 핵심입니다.
whuber

7

예제의 문제점은 변경됨에 따라 매개 변수를 변경할 수 있다는 것 입니다. CLT는 유한 평균과 sd 를 갖는 고정 분포의 경우 n ,nn

,xμndN(0,σ)

여기서 σx 분포의 평균과 sd에서 나온 것입니다 .μσx

물론, 다른 분포 (즉, 더 높은 기울어 짐)에 대해, 이 정리로부터 도출 된 근사치가 합리적이되기 전에 더 큰 이 필요하다. 사용자의 예에 대해 λ m = 1 / m , N > > m은 통상 근사 합리적인 전에 요구된다.nλm=1/mn>>m

편집하다

CLT가 합계에 적용되지 않고 표준화 된 합계에 적용되는 방법에 대한 논의가 있습니다 (예 : 하지Σ는XI을). 이론적으로 이것은 물론 사실입니다. 표준화되지 않은 합계는 대부분의 경우 정의되지 않은 분포를 갖습니다.xi/nxi

그러나 실제로 CLT가 정당화 한 근사값을 합계에 적용 할 수 있습니다! 경우 큰 위해 통상 CDF에 의해 근사화 될 수 N 다음 확실히 F Σ X 스칼라 보존의 정상 곱한 너무 수있다. 그리고이 문제에 바로이를 볼 수 있습니다 리콜을하면 것을 X 내가 ~ P ( λ는 ) 다음 Y = Σ N = 1 X I ~ P ( N λ )Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ). 그리고 우리 모두가 큰 대한 우리의 상단 분할 확률 과정에서 배운 , a의 CDF P O I S ( λ가 ) 와 함께 정상에 의해 아주 잘 근사 할 수 μ = λ , σ 2 = λ . 그래서 어떤 위해 고정 λ 우리의 CDF 근사 할 Y ~ P를 O를 I S ( N λ ) 와 매우 잘 Φ ( Y - N λλPois(λ)μ=λσ2=λ λYPois(nλ)Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


5

nλnλn=1Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.