우리는 이것에 대한 다양한 접근 방식을 취할 수 있습니다. 어떤 방법은 어떤 사람들에게는 직관적으로 보일 수도 있고 다른 사람들에게는 직관적으로 보이지 않을 수도 있습니다. 이러한 변화를 수용하기 위해,이 답변은 분석 (무한과 무한), 기하학 / 토폴로지 (공간 관계), 대수 (심볼 조작의 형식적 패턴)와 같은 수학적 사고의 주요 부분을 다루는 몇 가지 그러한 접근법을 조사합니다. 확률 자체. 그것은 네 가지 접근법을 모두 통일하고 여기에 대답해야 할 진정한 질문이 있음을 보여 주며 문제가 무엇인지 정확하게 보여줍니다. 각 접근법은 독자적인 균일 변수의 합의 확률 분포 함수의 형태의 본질에 대한 고유 한 방식으로 자체적 인 방식을 제공합니다.
배경
균일 분포는[0,1] 몇몇 기본적인 설명을 갖는다. 가 그러한 분포를 가질 때X
기회 것을 측정 가능한 설정에 거짓말 단지 측정 (길이)입니다 , 서면.A A ∩ [ 0 , 1 ] | A ∩ [ 0 , 1 ] |XAA∩[0,1]|A∩[0,1]|
이것으로부터 누적 분포 함수 (CDF)는
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
CDF를 유도체의 확률 밀도 함수 (PDF)를이다 대 및 그렇지. ( 과 정의되어 있지 않습니다 .)fX(x)=10≤x≤1fX(x)=001
특성 함수의 직감 (분석)
임의의 변수 의 특징 함수 (CF)는 의 기대 값입니다 (여기서 는 허수 단위, ). 균일 분포의 PDF를 사용하여 계산할 수 있습니다Xexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
CF는 PDF의 (푸리에 버전) 입니다. 푸리에 변환에 대한 가장 기본적인 정리는 다음과 같습니다.ϕ(t)=f^(t)
독립 변수 의 CF는 CF 의 곱 입니다.X+Y
원본 PDF 가 연속적이고 가 된 경우, 밀접하게 연관된 푸리에 변환 버전을 통해 CF 에서 를 복구 할 수 있습니다 .fXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
경우 미분, 그 유도체는 적분 기호에 따라 계산 될 수있다 :f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
이것을 명확하게 정의하려면 마지막 적분이 절대적으로 수렴되어야합니다. 그건,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
유한 값으로 수렴해야합니다. 반대로, 수렴 할 때 파생물은 이러한 반전 공식으로 인해 모든 곳에 존재합니다.
균일 한 변수 의 합계에 대한 PDF가 얼마나 다른지 정확히 알 수 있습니다. 첫 번째 글 머리표에서 iid 변수의 합계의 CF는 제곱으로 올린 변수 중 하나의 CF입니다 . 여기서 . 분자는 묶이고 (사인파로 구성됨) 분모는 입니다. 이러한 정수에 곱할 수 있으며 때는 절대적으로 수렴하고 때는 조건부로 수렴합니다 . 따라서 세 번째 글 머리 기호를 반복 적용하면 균일 변량 합계에 대한 PDF 가 계속 임을 알 수 있습니다.nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2대부분의 경우, 배 차이 가 나올 것 입니다.n−1
파란색 음영 곡선은 iid 균일 변량 의 합의 CF의 실제 부분의 절대 값에 대한 로그-로그 플롯입니다 . 빨간색 점선은 점근선입니다. 그것의 기울기는 이며, PDF는 배의 차이를 나타냅니다. 참고로, 회색 곡선은 유사한 모양의 가우스 함수 (일반 PDF)에 대해 CF의 실제 부분을 플로팅합니다.n=10−1010−2=8
확률에서 직감
하자 및 독립적 인 랜덤 변수 일 수 균일 갖는다 분포. 좁은 간격 고려하십시오 . 우리는 가 가이 간격에 충분히 근접 할 확률과 가 딱 맞는 크기 일 확률을 분해합니다. 가 충분히 가까워 지면이 간격에 를 배치합니다 .YXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
최종 평등은 의 PDF에 대한 표현식에서 비롯됩니다 . 에 의해 양쪽을 분할 과 같은 한계를 가지고 제공Xdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
즉, 균일 한 추가 변수 에 어떤 변수 PDF 파일 변경 구별 지워진 CDF에 . PDF는 CDF의 파생이므로, 독립적 인 균일 변수를 추가 할 때마다 결과 PDF가 이전보다 한 번 더 차별화 될 수 있음을 의미합니다.[0,1]XYfYFY(t)−FY(t−1)Y
균일 한 변수 시작하여이 통찰력을 적용 해 봅시다 . 원본 PDF는 또는 에서 구별 할 수 없습니다. 불 연속적입니다. 의 PDF는 , 또는 에서 구별 할 수 없지만 의 PDF의 적분의 차이이기 때문에 해당 시점에서 연속적이어야합니다 . 또 다른 독립적 인 균일 한 변수 추가 :의 PDF 이다 의 미분 , , 및 이 필요하지 않습니다 - 그러나 두 번째Y01Y+X012YX2Y+X+X2 0123그 시점에서 파생 상품. 등등.
기하학에서 직감
CDF에서 의 합 IID 균일 variates는 단위 하이퍼 큐브의 부피와 동일 반 공간 내에 누워 . 변동에 대한 상황 이 여기에 표시되며 는 , , 됩니다.tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
가 에서 까지 진행 함에 따라 , 초평면 는 , 에서 정점을 교차합니다 . 매번 단면의 모양이 바뀝니다. 그림에서 먼저 삼각형 ( -simplex), 육각형, 삼각형입니다. 이러한 값에서 PDF가 왜 급격하게 구부러지지 않습니까?t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
이를 이해하려면 먼저 작은 값 고려하십시오 . 여기서, 초평면 는 심플 렉스를 차단한다 . 단면의 모든 치수는 직접 비례 하지만 "면적"은 비례합니다 . 이것에 대한 일부 표기법은 나중에 유용 할 것입니다. "단위 단계 함수"라고 합시다.tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
하이퍼 큐브의 다른 모서리가 존재하지 않으면이 스케일링은 무한정 계속됩니다. -simplex 영역의 플롯은 아래의 파란색 곡선처럼 보입니다. 음수 값은 0이고긍정적으로, 편리하게 쓰여진. 차수 통한 모든 도함수 가 존재하고 연속적 이라는 점에서 차수 의 "친족"을 가지지 만, 차수 의 왼쪽 및 오른쪽 도함수가 존재하지만 원점에 동의하지 않음 .n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(이 그림에 표시된 다른 곡선은 (빨간색), (금) 및 (검정). 경우의 역할에 대해서는 아래에서 자세히 설명합니다.)−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
교차 할 때 발생하는 상황을 이해 하기 위해 모든 기하가 평면에서 발생 하는 경우 를 자세히 살펴 보겠습니다 . 다음과 같이 단위 "큐브"(현재 사각형) 를 사분면 의 선형 조합 으로 볼 수 있습니다.t1n=2
첫 번째 사분면은 왼쪽 하단 패널에 회색으로 나타납니다. 의 값 은 이며, 5 개의 패널 모두에 표시된 대각선을 결정합니다. CDF는 오른쪽에 표시된 노란색 영역과 같습니다. 이 노란색 영역은 다음으로 구성됩니다.t1.5
왼쪽 하단 패널의 삼각형 회색 영역
왼쪽 상단 패널의 삼각형 녹색 영역을 뺀 값
마이너스 낮은 가운데 패널에서 삼각형 빨간색 영역,
상단 가운데 패널에 파란색 영역을 더한 경우 (그러나 그러한 영역이 없거나 가 초과 할 때까지는 없음 ).t2
이 영역은 모두 삼각형의 영역입니다. 첫 번째는 와 같이 스케일링 되고, 다음 두 개는 대해 0 이고 그렇지 않으면 와 같이 스케일링 되고 마지막은 대해 0입니다 이고 그렇지 않으면 과 같이 조정 됩니다. 이 기하학적 분석은 CDF가 = ; 마찬가지로 PDF는 세 함수 , 및 의 합에 비례합니다2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)nθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)(각각 때 선형으로 스케일링 됨 ). 이 그림의 왼쪽 패널은 그래프를 보여줍니다. 분명히 그래프는 모두 원래 그래프 버전 이지만 (a) , 및 단위 오른쪽으로 이동하고 (b) 스케일 , 및 입니다.n=2θ(t)t0121−21
오른쪽 패널에는 이러한 그래프의 합계 (단일 검은 색 곡선, 단위 면적을 갖도록 정규화 됨)가 있습니다. 이것은 원래 질문에 표시된 각도 모양의 PDF입니다.
이제 우리는 iid 균일 변수의 합계에 대한 PDF의 "kinks"의 특성을 이해할 수 있습니다. 그것들은 모두 함수 에서 에서 발생하는 "kink"와 정확히 같으며 , 크기가 재조정되고 정수 로 이동했습니다. 는 하이퍼 큐브의 정점을 교차합니다. 를 들어 ,이 방향에서의 표시 변화 : 오른쪽 유도체 에서 이고 의 왼쪽 유도체 인 반면 . 를 들어 , 이는 인 연속0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3방향의 변화, 그러나 이차 미분의 갑작스런 (불연속적인) 변화. 일반적으로 경우 차수 통해 연속 도함수가 있지만 도함수 에서 불연속성이 있습니다.nn−2n−1st
대수 조작의 직관
CF를 계산하기위한 통합, 확률 론적 분석에서 조건부 확률의 형태, 사분면의 선형 조합으로서 하이퍼 큐브의 합성은 모두 원래의 균일 한 분포로 돌아가서 더 간단한 것들의 선형 조합으로 다시 표현하는 것을 제안합니다 . 실제로 PDF를 작성할 수 있습니다
fX(x)=θ(x)−θ(x−1).
시프트 연산자 소개합시다 : 그래프를 한 단위 오른쪽으로 이동시켜 모든 함수 에 작용합니다 :Δf
(Δf)(x)=f(x−1).
공식적으로, 균일 변수 의 PDF에 대해 다음과 같이 쓸 수 있습니다.X
fX=(1−Δ)θ.
유니폼 유니폼 의 PDF는 와 번의 컨벌루션입니다 . 이는 임의의 변수의 합의 정의에 따른 것 입니다. 두 함수 와 의 컨벌루션 은 함수입니다.nfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
컨볼 루션이 통근하는지 쉽게 확인할 수 있습니다. 적분 변수를 에서 변경하십시오 .Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
iid 유니폼 의 합계 PDF를 위해 , 이제 대수적으로 다음과 같이 쓸 수 있습니다.n
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(여기서 "power"는 점으로 곱하기가 아니라 반복 된 회선을 나타냅니다!). 이제 은 직접적인 기본 통합으로⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
이항 정리가 적용되기 때문에 나머지는 대수학입니다 (실제에 대한 모든 대수적 대수에서와 같이).
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
단순히 에 의해 인수를 이동시키기 때문에 , 이것은 우리가 기하학적으로 추론 한 것과 같이 PDF 를 의 이동 된 버전의 선형 조합으로 나타냅니다 :Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook은 나중에 블로그 게시물에서 표기법 을 사용하여이 공식을 인용합니다 .)(x−i)n−1+(x−i)n−1θ(x−i)
따라서 은 모든 곳에서 부드러운 함수 이기 때문에 PDF의 특이한 동작은 가 특이한 곳 (명확하게는 )과 오른쪽으로 만큼 이동 한 곳에서만 발생합니다. . 따라서 그 특이한 행동 (매끄러움 정도)의 특성은 모든 위치 에서 동일 합니다.xn−1θ(x)01,2,…,nn+1
이 그림은 의 그림 으로, 왼쪽 패널에서 합계의 개별 항과 오른쪽 패널에서 부분 합계를 나타내며 합계 자체에서 끝이납니다 (검은 색 곡선).n=8
결산 의견
이 마지막 접근 방식은 최종적으로 여러 균일 한 균일 변수 의 PDF를 계산하기위한 작고 실용적인 표현을 산출했음을 주목하는 것이 유용 합니다. (CDF에 대한 공식은 유사하게 얻어진다.)n
중앙 한계 정리는 여기서 거의 말할 것이 없습니다. 결국 iid 이항 변수 의 합은 정규 분포로 수렴되지만 그 합은 항상 이산입니다. PDF조차 전혀 없습니다! 우리는 CLT에서 나온 "kinks"또는 PDF의 차별화 가능성에 대한 직관을 기 대해서는 안됩니다.