또는 의 균일 분포 의 합을 고려하십시오 . 왜 대해 의 PDF에서 사라 ?


40

나는 이것에 대해 잠시 동안 궁금해했다. 나는 그것이 갑자기 어떻게 일어나는지 조금 이상하다고 생각한다. 기본적으로 이 평활화 위해 3 개의 유니폼 만 필요한 이유 는 무엇입니까? 그리고 왜 평활화가 비교적 빨리 발생합니까?Zn

Z2 :

2

Z3 :

삼

(John D. Cook의 블로그 ( http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) 에서 부끄럽게 도난당한 이미지 )

왜 네 개의 유니폼을 입지 않습니까? 아니면 다섯? 또는...?


11
글쎄, 3 유니폼의 합은 pf에 2 차 세그먼트를 가지고 있기 때문에 2 개 이상의 유니폼을 입으면 평균에서 피크를 가지기 때문에 아주 간단합니다. 2 차 피크는 "부드럽습니다"... 2 차 조각 사이의 결합은 1과 2에 있으므로 1.5에서 꼬일 수 없습니다 . 같은 결론에 도달하는 다른 방법이 있습니다
Glen_b

답변:


71

우리는 이것에 대한 다양한 접근 방식을 취할 수 있습니다. 어떤 방법은 어떤 사람들에게는 직관적으로 보일 수도 있고 다른 사람들에게는 직관적으로 보이지 않을 수도 있습니다. 이러한 변화를 수용하기 위해,이 답변은 분석 (무한과 무한), 기하학 / 토폴로지 (공간 관계), 대수 (심볼 조작의 형식적 패턴)와 같은 수학적 사고의 주요 부분을 다루는 몇 가지 그러한 접근법을 조사합니다. 확률 자체. 그것은 네 가지 접근법을 모두 통일하고 여기에 대답해야 할 진정한 질문이 있음을 보여 주며 문제가 무엇인지 정확하게 보여줍니다. 각 접근법은 독자적인 균일 변수의 합의 확률 분포 함수의 형태의 본질에 대한 고유 한 방식으로 자체적 인 방식을 제공합니다.


배경

균일 분포는[0,1] 몇몇 기본적인 설명을 갖는다. 가 그러한 분포를 가질 때X

  1. 기회 것을 측정 가능한 설정에 거짓말 단지 측정 (길이)입니다 , 서면.A A [ 0 , 1 ] | A [ 0 , 1 ] |XAA[0,1]|A[0,1]|

  2. 이것으로부터 누적 분포 함수 (CDF)는

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. CDF를 유도체의 확률 밀도 함수 (PDF)를이다 대 및 그렇지. ( 과 정의되어 있지 않습니다 .)fX(x)=10x1fX(x)=001

    PDF


특성 함수의 직감 (분석)

임의의 변수 의 특징 함수 (CF)는 의 기대 값입니다 (여기서 는 허수 단위, ). 균일 분포의 PDF를 사용하여 계산할 수 있습니다Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

CF는 PDF의 (푸리에 버전) 입니다. 푸리에 변환에 대한 가장 기본적인 정리는 다음과 같습니다.ϕ(t)=f^(t)

  • 독립 변수 의 CF는 CF 의 입니다.X+Y

  • 원본 PDF 가 연속적이고 가 된 경우, 밀접하게 연관된 푸리에 변환 버전을 통해 CF 에서 를 복구 할 수 있습니다 .fXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • 경우 미분, 그 유도체는 적분 기호에 따라 계산 될 수있다 :f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    이것을 명확하게 정의하려면 마지막 적분이 절대적으로 수렴되어야합니다. 그건,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    유한 값으로 수렴해야합니다. 반대로, 수렴 할 때 파생물은 이러한 반전 공식으로 인해 모든 곳에 존재합니다.

균일 한 변수 의 합계에 대한 PDF가 얼마나 다른지 정확히 알 수 있습니다. 첫 번째 글 머리표에서 iid 변수의 합계의 CF는 제곱으로 올린 변수 중 하나의 CF입니다 . 여기서 . 분자는 묶이고 (사인파로 구성됨) 분모는 입니다. 이러한 정수에 곱할 수 있으며 때는 절대적으로 수렴하고 때는 조건부로 수렴합니다 . 따라서 세 번째 글 머리 기호를 반복 적용하면 균일 변량 합계에 대한 PDF 가 계속 임을 알 수 있습니다.nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2대부분의 경우, 배 차이 가 나올 것 입니다.n1

n = 10에 대한 CF

파란색 음영 곡선은 iid 균일 변량 의 합의 CF의 실제 부분의 절대 값에 대한 로그-로그 플롯입니다 . 빨간색 점선은 점근선입니다. 그것의 기울기는 이며, PDF는 배의 차이를 나타냅니다. 참고로, 회색 곡선은 유사한 모양의 가우스 함수 (일반 PDF)에 대해 CF의 실제 부분을 플로팅합니다.n=1010102=8


확률에서 직감

하자 및 독립적 인 랜덤 변수 일 수 균일 갖는다 분포. 좁은 간격 고려하십시오 . 우리는 가 가이 간격에 충분히 근접 할 확률과 가 딱 맞는 크기 일 확률을 분해합니다. 가 충분히 가까워 지면이 간격에 를 배치합니다 .YXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

최종 평등은 의 PDF에 대한 표현식에서 비롯됩니다 . 에 의해 양쪽을 분할 과 같은 한계를 가지고 제공Xdtdt0

fX+Y(t)=FY(t)FY(t1).

즉, 균일 한 추가 변수 에 어떤 변수 PDF 파일 변경 구별 지워진 CDF에 . PDF는 CDF의 파생이므로, 독립적 인 균일 변수를 추가 할 때마다 결과 PDF가 이전보다 한 번 더 차별화 될 수 있음을 의미합니다.[0,1]XYfYFY(t)FY(t1)Y

균일 한 변수 시작하여이 통찰력을 적용 해 봅시다 . 원본 PDF는 또는 에서 구별 할 수 없습니다. 불 연속적입니다. 의 PDF는 , 또는 에서 구별 할 수 없지만 의 PDF의 적분의 차이이기 때문에 해당 시점에서 연속적이어야합니다 . 또 다른 독립적 인 균일 한 변수 추가 :의 PDF 이다 의 미분 , , 및 이 필요하지 않습니다 - 그러나 두 번째Y01Y+X012YX2Y+X+X2 0123그 시점에서 파생 상품. 등등.


기하학에서 직감

CDF에서 의 합 IID 균일 variates는 단위 하이퍼 큐브의 부피와 동일 반 공간 내에 누워 . 변동에 대한 상황 이 여기에 표시되며 는 , , 됩니다.tn[0,1]nx1+x2++xntn=3t1/23/25/2

3D 큐브

가 에서 까지 진행 함에 따라 , 초평면 는 , 에서 정점을 교차합니다 . 매번 단면의 모양이 바뀝니다. 그림에서 먼저 삼각형 ( -simplex), 육각형, 삼각형입니다. 이러한 값에서 PDF가 왜 급격하게 구부러지지 않습니까?t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

이를 이해하려면 먼저 작은 값 고려하십시오 . 여기서, 초평면 는 심플 렉스를 차단한다 . 단면의 모든 치수는 직접 비례 하지만 "면적"은 비례합니다 . 이것에 대한 일부 표기법은 나중에 유용 할 것입니다. "단위 단계 함수"라고 합시다.tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

하이퍼 큐브의 다른 모서리가 존재하지 않으면이 스케일링은 무한정 계속됩니다. -simplex 영역의 플롯은 아래의 파란색 곡선처럼 보입니다. 음수 값은 0이고긍정적으로, 편리하게 쓰여진. 차수 통한 모든 도함수 가 존재하고 연속적 이라는 점에서 차수 의 "친족"을 가지지 만, 차수 의 왼쪽 및 오른쪽 도함수가 존재하지만 원점에 동의하지 않음 .n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(이 그림에 표시된 다른 곡선은 (빨간색), (금) 및 (검정). 경우의 역할에 대해서는 아래에서 자세히 설명합니다.)3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

간단한 면적 플롯

교차 할 때 발생하는 상황을 이해 하기 위해 모든 기하가 평면에서 발생 하는 경우 를 자세히 살펴 보겠습니다 . 다음과 같이 단위 "큐브"(현재 사각형) 를 사분면선형 조합 으로 볼 수 있습니다.t1n=2

사분면

첫 번째 사분면은 왼쪽 하단 패널에 회색으로 나타납니다. 의 값 은 이며, 5 개의 패널 모두에 표시된 대각선을 결정합니다. CDF는 오른쪽에 표시된 노란색 영역과 같습니다. 이 노란색 영역은 다음으로 구성됩니다.t1.5

  1. 왼쪽 하단 패널의 삼각형 회색 영역

  2. 왼쪽 상단 패널의 삼각형 녹색 영역을 뺀 값

  3. 마이너스 낮은 가운데 패널에서 삼각형 빨간색 영역,

  4. 상단 가운데 패널에 파란색 영역을 더한 경우 (그러나 그러한 영역이 없거나 가 초과 할 때까지는 없음 ).t2

이 영역은 모두 삼각형의 영역입니다. 첫 번째는 와 같이 스케일링 되고, 다음 두 개는 대해 0 이고 그렇지 않으면 와 같이 스케일링 되고 마지막은 대해 0입니다 이고 그렇지 않으면 과 같이 조정 됩니다. 이 기하학적 분석은 CDF가 = ; 마찬가지로 PDF는 세 함수 , 및 의 합에 비례합니다2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)nθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)(각각 때 선형으로 스케일링 됨 ). 이 그림의 왼쪽 패널은 그래프를 보여줍니다. 분명히 그래프는 모두 원래 그래프 버전 이지만 (a) , 및 단위 오른쪽으로 이동하고 (b) 스케일 , 및 입니다.n=2θ(t)t012121

n = 2에 대한 그래프

오른쪽 패널에는 이러한 그래프의 합계 (단일 검은 색 곡선, 단위 면적을 갖도록 정규화 됨)가 있습니다. 이것은 원래 질문에 표시된 각도 모양의 PDF입니다.

이제 우리는 iid 균일 변수의 합계에 대한 PDF의 "kinks"의 특성을 이해할 수 있습니다. 그것들은 모두 함수 에서 에서 발생하는 "kink"와 정확히 같으며 , 크기가 재조정되고 정수 로 이동했습니다. 는 하이퍼 큐브의 정점을 교차합니다. 를 들어 ,이 방향에서의 표시 변화 : 오른쪽 유도체 에서 이고 의 왼쪽 유도체 인 반면 . 를 들어 , 이는 인 연속0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3방향의 변화, 그러나 이차 미분의 갑작스런 (불연속적인) 변화. 일반적으로 경우 차수 통해 연속 도함수가 있지만 도함수 에서 불연속성이 있습니다.nn2n1st


대수 조작의 직관

CF를 계산하기위한 통합, 확률 론적 분석에서 조건부 확률의 형태, 사분면의 선형 조합으로서 하이퍼 큐브의 합성은 모두 원래의 균일 한 분포로 돌아가서 더 간단한 것들의 선형 조합으로 다시 표현하는 것을 제안합니다 . 실제로 PDF를 작성할 수 있습니다

fX(x)=θ(x)θ(x1).

시프트 연산자 소개합시다 : 그래프를 한 단위 오른쪽으로 이동시켜 모든 함수 에 작용합니다 :Δf

(Δf)(x)=f(x1).

공식적으로, 균일 변수 의 PDF에 대해 다음과 같이 쓸 수 있습니다.X

fX=(1Δ)θ.

유니폼 유니폼 의 PDF는 와 번의 컨벌루션입니다 . 이는 임의의 변수의 합의 정의에 따른 것 입니다. 두 함수 와 의 컨벌루션 은 함수입니다.nfXnfg

(fg)(x)=f(xy)g(y)dy.

컨볼 루션이 통근하는지 쉽게 확인할 수 있습니다. 적분 변수를 에서 변경하십시오 .Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

iid 유니폼 의 합계 PDF를 위해 , 이제 대수적으로 다음과 같이 쓸 수 있습니다.n

f=fXn=((1Δ)θ)n=(1Δ)nθn

(여기서 "power"는 점으로 곱하기가 아니라 반복 된 회선을 나타냅니다!). 이제 은 직접적인 기본 통합으로nθn

θn(x)=θ(x)xn1n1!.

이항 정리가 적용되기 때문에 나머지는 대수학입니다 (실제에 대한 모든 대수적 대수에서와 같이).

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

단순히 에 의해 인수를 이동시키기 때문에 , 이것은 우리가 기하학적으로 추론 한 것과 같이 PDF 를 의 이동 된 버전의 선형 조합으로 나타냅니다 :Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook은 나중에 블로그 게시물에서 표기법 을 사용하여이 공식을 인용합니다 .)(xi)+n1(xi)n1θ(xi)

따라서 은 모든 곳에서 부드러운 함수 이기 때문에 PDF의 특이한 동작은 가 특이한 곳 (명확하게는 )과 오른쪽으로 만큼 이동 한 곳에서만 발생합니다. . 따라서 그 특이한 행동 (매끄러움 정도)의 특성은 모든 위치 에서 동일 합니다.xn1θ(x)01,2,,nn+1

이 그림은 의 그림 으로, 왼쪽 패널에서 합계의 개별 항과 오른쪽 패널에서 부분 합계를 나타내며 합계 자체에서 끝이납니다 (검은 색 곡선).n=8

n = 8에 대한 플롯


결산 의견

이 마지막 접근 방식은 최종적으로 여러 균일 한 균일 변수 의 PDF를 계산하기위한 작고 실용적인 표현을 산출했음을 주목하는 것이 유용 합니다. (CDF에 대한 공식은 유사하게 얻어진다.)n

중앙 한계 정리는 여기서 거의 말할 것이 없습니다. 결국 iid 이항 변수 의 합은 정규 분포로 수렴되지만 그 합은 항상 이산입니다. PDF조차 전혀 없습니다! 우리는 CLT에서 나온 "kinks"또는 PDF의 차별화 가능성에 대한 직관을 기 대해서는 안됩니다.


12
(+1) 환상적인! 자,이 모든 것을 하나로 묶는 데 얼마나 걸렸습니까?!
추기경

13
@Cardinal 이것은 지난 월요일 정전이 발생하기 전에 읽은 마지막 질문이었습니다. 계속되는 주 동안, 길고 어두운 저녁은 :-)를 통해 그것을 생각하고 오락을 위해 여러 가지 답을 개발할 기회를 제공했습니다. 지난 주말에 권력이 회복 된 후, 삽화를 만들고 그것을 모두 쓸 시간을 찾는 것이 문제였습니다 (예상보다 오래 걸렸습니다). 이 스레드 중 일부가 임의의 변수 합계에 대한 관련 향후 질문에 대한 참조로 사용될 수 있기를 바랍니다.
whuber

1
와. 이 답변을 '좋아할'수 있기를 바랍니다 .
Rhubbarb

2
whuber, 이것은 절대적으로 훌륭합니다. 나는 그런 간단한 질문이 얼마나 깊은 지 몰랐습니다. 답을 구하는 데 시간이 좀 걸리 겠지만 지금은 정말 감사합니다!
tetragrammaton

6
나는 말함으로써, 의견에 SE 정책을 위반하는 것 우리 :) 더 자주 전원 차단에 전력 회사에게 뇌물을해야합니다 (crossvalidate.com의 모든)
mpiktas

1

균일 랜덤 변수의 확률 밀도 함수가 유한하다고 주장 할 수 있습니다.

따라서 균일 한 랜덤 변수의 누적 밀도 함수가 적분입니다.

따라서 두 개의 균일 한 랜덤 변수의 합의 확률 밀도 함수는 연속적입니다.

따라서 두 개의 균일 한 랜덤 변수의 합의 누적 밀도 함수가 완벽합니다 (연속 미분 가능).

따라서 3 개의 균일 한 랜덤 변수의 합의 확률 밀도 함수가 부드럽습니다.


1

더 놀라운 것은 의 급격한 피크를 얻는 것입니다 . n=2

중앙 한계 정리 (Central Limit Theorem)는 충분히 큰 표본 크기의 경우 평균의 분포 (및 합은 평균 시간 , 각 그래프에 대해 고정 상수 임)는 대략 정상 이라고 말합니다 . 균일 분포는 CLT (대칭, 두꺼운 꼬리 (많은 꼬리가 많지 않음), 특이 치의 가능성 없음)와 관련하여 실제로 잘 작동하므로 균일 한 경우 표본 크기는 "충분히 커야합니다" "는 그리 크지 않습니다 (좋은 근사치의 경우 약 5 또는 6) . 에서 이미 OK 근사치를보고 있습니다.nn=3

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.