확률 척도들 사이의 라돈-니코 딤 유도체의 해석?


11

나는 어떤 시점에서 다른 확률에 대한 하나의 확률 측정의 Radon-Nikodym 미분을 사용하는 것을 보았는데, 특히 Kullback-Leibler 발산에서 임의의 매개 변수 에 대한 모델의 확률 측정의 미분 실제 매개 변수 과 관련하여 :θθ0

dPθdPθ0

둘 다 매개 변수 값에 조건부 인 데이터 포인트 공간에 대한 확률 측정치 인 경우 .Pθ(D)=P(D|θ)

Kullback-Leibler 발산에서 또는보다 일반적으로 두 확률 척도 사이에서 이러한 라돈-니코 딤 유도체의 해석은 무엇입니까?

답변:


12

먼저 확률 측정이 필요하지 않으며 -finiteness 만 있으면됩니다. 그렇게하자 측정 가능한 공간하고하자 및 수 에 -finite 대책 .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM

라돈 Nikodym 정리 명시하는 경우 의 모든 , 붙이고 다음 음이 아닌 보렐 존재 함수 와 같이 모든 대해 입니다 .A F μ ν f ν ( A ) = A fμ(A)=0ν(A)=0AFμνfA F

ν(A)=Afdμ
AF

여기 내가 이것을 어떻게 생각하는지 좋아합니다. 먼저, 에 대한 두 가지 측정 값에 대해 를 정의 하여 합니다. 이것은 유효한 등가 관계 경우 와 는 동일 합니다. 이것이 왜 측정에 대한 합리적인 동등성입니까? 측정은 단지 기능 일 뿐이지 만 도메인은 시각화하기 까다 롭습니다. 두 개의 일반 함수 에이 속성이있는 어떻습니까? ? 글쎄, 하고 어디서나 지원 μ ν μ ( A ) = 0Mμνμ ν f , g : RR f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RRh ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. g g h = f g g h = 0 π e = 0 = f f g h g f 0 / 0 g = 0 h π ef(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g 우리는 가지고 있으며 , ( 와 가 지원하기 때문에)의 지원을 제외하고 는 를 로 재조정 할 수 있습니다 . @ whuber가 지적했듯이, 여기서 핵심 아이디어는 이 어떻게 든 안전하거나 무시하는 것이 아니라 일 때 가 무엇이든 중요 하지 않으므로 임의로 정의 할 수 있습니다 (예 : 여기서 특별한 의미가없는 이어야 합니다) 여전히 작동합니다. 또한,이 경우에 우리는 유사한 기능을 정의 할 수 와 그래서 그gh=fg gh=0πe=0=ffghgf0/0g=0hπe g / f f h = ghg/ffh=g 입니다.

다음으로 한다고 가정 하지만 다른 방향이 반드시 유지되는 것은 아닙니다. 이것은 대한 이전 정의가 여전히 작동하지만 이제는 실제 나누기가 있기 때문에 가 작동하지 않음을 의미합니다 . 따라서 우리는 를 통해 를 로 재조정 할 수 있지만 을 이 아닌 것으로 재조정해야하기 때문에 다른 방향으로 갈 수 없습니다 .h h 0 g f g h = f 0g(x)=0f(x)=0hh0gfgh=f0

이제 와 돌아가서 RND를 표시 하자 . 만약 반대로,이 직관적으로 하나가 다른으로 재 스케일링 될 수 있다는 것을 의미하며, 그 반대. 그러나 일반적으로 우리는 이것과 함께 한 방향으로 가고 싶습니다 (즉, Lebesgue 측정 값과 같은 멋진 측정 값을보다 추상적 인 측정 값으로 다시 조정) 유용한 작업을 수행 하려면 만 있으면 됩니다. 이 크기 조정은 RND의 핵심입니다.ν f μ ν μ νμνfμνμν

주석에서 @whuber의 요점으로 돌아가서 문제를 무시하는 것이 안전한 이유에 대한 추가 미묘한 점이 있습니다 . 측정 값을 사용하면 측정 값 세트까지만 정의 하므로 모든 세트 에서 RND가 같은 값을 갖도록 할 수 있기 때문 입니다. 따라서 이 본질적으로 안전하지는 않지만 이있는 곳은 wrt 측정 세트 이므로 RND를 아무런 영향을 미치지 않고 멋진 것으로 정의 할 수 있습니다.0 μ ( ) = 0 1 0 / 0 0 / 0 0 μ0/00Aμ(A)=010/00/00μ

예로서, 가정 일부 . 그런 다음 그래서 는 RND이다 (이것은 측정 정리의 변화에 ​​의해보다 공식적으로 정당화 될 수있다). 스케일링 계수를 정확하게 복구했기 때문에 좋습니다.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

다음은 측정 값 세트에서 RND를 변경해도 영향을 미치지 않는 방법을 강조하기위한 두 번째 예 입니다. 보자 , 즉, 그것은 표준 정규 PDF 플러스의 입력이 합리적이고, 허락한다면 이 밀도 RV합니다. 이것은 따라서 실제로 는 여전히 표준 가우스 RV입니다. 측정 값 wrt 이므로 에서 를 변경하는 방식으로 분포에 영향을 미치지 않았습니다.0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

마지막 예제로 및 를 가정하고 와 각각의 분포로 하자 . 호출은 PMF는 계수 측정에 대하여 RND 것을 , 이후 특성을 갖는다 그것이 밝혀 XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

그래서 우리는 계산할 수 있습니다

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

따라서 지원 하는 모든 에 대해 이기 때문에 , 포이 슨 분포와 관련하여 이항 분포와의 통합으로의 스케일을 재조정 할 수 있습니다. 비록 모든 것이 불연속 적이기 때문에 사소한 것처럼 보입니다. 결과.P(X=n)>0nY


더 일반적인 질문에 답변했지만 KL 분기에 대해서는 언급하지 않았습니다. 적어도 저에게 KL 발산은 @kjetil b halvorsen의 대답과 같은 가설 테스트 측면에서 훨씬 쉽게 해석 할 수 있습니다 . 만약 및 측정 존재 후 모두 사용 지배 밀도가있는 폼을 복구 할 수 있기 때문에 더 쉽게 찾을 수 있습니다.PQμdPdQ=dP/dμdQ/dμ:=p/q


3
나는이 설명을 즐겼지만 (내가 기고 한 모든 것을 즐기면서) 이 어떤 의미가 있다는 (반복 된) 주장에 근거한 것처럼 보이지만 그렇지 않다. 실제 값의 함수에서는 자동으로 발생하지 않는 측정 값이 발생합니다. 측정 값 세트에서 발생하는 작업은 무시해도됩니다. 이것이 Radon-Nikodym 미분 설정에서 을 의미하지 않는 방법 입니다. 0 / 00/00/0
whuber

1
@ whuber는 의견을 보내 주셔서 감사합니다. 실제로 도움이됩니다. 나는 그것을 해결하기 위해 업데이트하려고 노력했다
jld
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.