특별 확률 분포


12

경우 비 - 제로 값을 갖는 확률 분포에 의 유형 (들)에 대한 일정에 존재 않는 되도록 모두 ?p(x)[0,+)p(x)c>00p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ20<ϵ<1

위의 불평등은 실제로 분포 와 그것의 압축 버전 사이의 Kullback-Leibler Divergence 입니다. 이 부등식이 지수, 감마 및와 이블 분포에 적용된다는 것을 알았으며 더 큰 부류의 확률 분포에 적합한 지 알고 싶습니다.( 1 + ϵ ) p ( x ( 1 + ϵ ) )p(x)(1+ϵ)p(x(1+ϵ))

불평등이 무엇을 의미하는지 아십니까?


3
은 양수 이기 때문에 스트레칭하지 않고 (x 방향으로) 압축합니다. ϵ
Glen_b-복원 모니카

2
이 질문은 모호합니다. 수량자는 무엇입니까? 이 불평등이 모든 , 적어도 하나의 또는 다른 것에 대해 유지되기를 원하십니까 ? 우선 순위 가 부여 됩니까? 아니면하나 이상 있어야 합니까? 그리고 확률 분포의 클래스 를 언급 했으므로 " "는 하나의 특정 분포 를 의미 합니까, 아니면 그 매개 변수 군을 의미합니까? ϵ c c p ( x )ϵ ϵccp(x)
whuber

2
@whuber 귀하의 의견에 감사드립니다. 언급 된 문제를 명확히하기 위해 문제 설명을 수정했습니다. 위의 불평등이 에 어떤 의미 가 있습니까? 답은 파라 메트릭 분포 군을 소개하거나 원하는 부등식을 제공하고 대한 미분 방정식을 제안하는 것일 수 있습니다 . p ( x )p(x)p(x)
Sus20200

2
이 불평등은 지속적이고 무한한지지를 가진 p (x)에 적용되지 않습니까? 파라 메트릭 패밀리 ( 에서 KL 발산을 계산하고 있습니다. KL이 0에서 확산 할 수 있으면 미분 값은 0입니다. 를 곡률의 최대 값으로 설정 KL ( )의 경우 한계가 있습니다. 추가 작업을 통해 p의 속성에서 C를 제한 할 수 있습니다.C ϵ [ 0 , 1 ]ϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene

1
무한대가 될 수 있습니다 . KL의 1 차 확장은L ϵ + O ( ϵ 2 )L=limx0p(x)x=0Lϵ+O(ϵ2)
Arthur B.

답변:


4

예비

쓰다

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

와 의 로그와 관계는 와 인수를 지수로 표현하는 것을 제안 합니다. 이를 위해p ( x ( 1 + ϵ ) ) pp(x)p(x(1+ϵ))p

q(y)=log(p(ey))

모두에 대해 되는 우측 정의되고 동일 목적지 . 변수 의 변화 는 와 ( 를 분포 의 밀도 로한다) 총 확률 법칙은 다음과 같이 표현 될 수 있음을 주목하라.p ( e y ) = 0 x = e y d x = e y d y pyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

때 이라고 가정 합니다. y ± eq(y)+y0y± 이것은 또는 근처의 밀도에서 무한히 많은 스파이크를 갖는 확률 분포 를 배제 합니다. 특히, 의 꼬리 가 결국 단조 적이라면, 이 가정을 암시하며, 이것이 심각한 것이 아님을 보여줍니다.0p(1)p0p(1)

로그 작업을보다 쉽게하기 위해

1+ϵ=eϵ+O(ϵ2).

다음 계산은 배수까지 수행되므로 다음을 정의하십시오.ϵ2

δ=log(1+ϵ).

우리는뿐만 아니라 대체 할 수 에 의해 와 함께, 에 해당하는 긍정적 양에 해당하는 .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ

분석

불평등이 실패 할 수있는 확실한 방법 중 하나는 이 일부 대해 분기되는 것입니다. 예를 들어, 임의의 적절한 간격 하는 양수 아무리 소형의 동일 제로 있었지만 간격에 있지 제로였다 그 적분을 일으킬 것입니다. 될 양의 확률로 무한합니다.ϵ(0,1][u,v]pp[uϵ,vϵ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

이 질문은 의 특성에 대해 구체적이지 않기 때문에, 가 얼마나 부드러운 지에 관한 기술적 문제로 혼란 스러울 수 있습니다. 모든 곳에서 우리가 사용해야 할 파생물을 많이 가지고 있다고 가정함으로써 여전히 통찰력을 얻기를 희망하면서 그러한 문제를 피합시다 . ( 이 연속적 이면 두 개로 충분합니다 .) 가 모든 경계 세트에서 계속 경계를 유지하므로 가 절대 0이 아님을 나타 냅니다.p q q q p ( x ) x > 0ppqqqp(x)x>0

질문 은 이 위에서 0에 가까워 질 때 의 동작과 관련이 있습니다 . 이 적분의 연속 함수이므로 간격에서 , 일부 최대 달성 경우 임의의 양의 간격에 한정되는 을 선택하는 데 도움이 가능 이므로 분명히Ip(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

불평등이 작동하게합니다. 이것이 계산 모듈로 에만 관심이 필요한 이유 입니다.ϵ2

해결책

에서 변수의 변화를 이용하여 로 에서 로 및 에 렛츠 계산 의 이차 통해 (또는 달성 희망) 단순화. 이를 위해xypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

순서 - 할 수 의 테일러 전개에 나머지 주변 .2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

왼쪽 적분에서 로 변수를 변경하면 다음의 가정에서 언급했듯이 변수가 나타냅니다 . 오른쪽 적분에서 변수를 다시 로 변경 하면q(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

오른쪽 의 계수 가 유한 한 경우에만 불평등은 (우리의 다양한 기술적 가정 하에서) 유지됩니다 .δ2

해석

이것은 의 Taylor 확장에서 2 차 오류가 정확하게 나타나지 않을 정확하게 의 2 차 함수에 의해 제한됩니다. 접근 함에 따라 (분포에 상대적으로) 분해 됩니다.Ip(ϵ)ϵqy±

질문에서 언급 한 몇 가지 사례 인 지수 및 감마 분포를 확인하겠습니다. (지수는 감마의 특별한 경우입니다.) 스케일 매개 변수는 측정 단위 만 변경하기 때문에 걱정할 필요가 없습니다. 비 스케일 파라미터 만 중요합니다.

여기서 때문에 에 대한 , 임의의 주위의 Taylor 확장 은나머지와 함께 테일러의 정리는 이 충분히 작은 대해 에 의해 지배됨을 의미 합니다. 대한 기대치 는 유한하기 때문에, 불평등은 감마 분포에 영향을 미칩니다.p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
yR(로그(x),δ)ey+δ/2<xδx
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

비슷한 계산은 어디에 분포를 보면 우리를 강제로 우리가 적어도 하나 개의 가정을 위반해야 반례를 얻기 위해, 사실 등 이블 분포의 불평등, 반 정규 분포, 로그 정규 분포를 의미 일부 구간에 사라, 또는이다 지속적으로 두 번 차별화 할 수 없거나 무한히 많은 모드가 있습니다. 통계 모델링에 일반적으로 사용되는 모든 분포에 적용하기 쉬운 테스트입니다.p

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.