정보 이론없이 Kullback-Leibler 발산


23

Cross Validated의 많은 트롤링 후에도 여전히 정보 이론의 영역 밖에서 KL 분기를 이해하는 것에 더 가깝다고 느끼지 않습니다. 정보 이론 설명을 이해하기가 훨씬 쉬운 수학 배경을 가진 사람에게는 다소 이상합니다.

정보 이론 배경에서 내 이해를 간략하게 설명하려면 : 한정된 수의 결과를 갖는 임의의 변수가있는 경우 평균적으로 가장 짧은 메시지를 가지고 다른 사람과 결과를 전달할 수있는 최적의 인코딩이 있습니다 (이것이 가장 쉬운 방법입니다) 비트 측면에서 그림). 최적의 인코딩이 사용되는 경우 결과를 전달하는 데 필요한 메시지의 예상 길이는 로 제공됩니다. 하위 최적 인코딩을 사용하는 경우 KL 분기는 메시지의 평균 수명을 평균적으로 알려줍니다.

αpαlog2(pα)

KL 발산의 비대칭 성을 직관적으로 다루기 때문에이 설명이 마음에 듭니다. 서로 다른로드가있는 두 개의 다른 시스템, 즉 두 개의로드 된 코인이있는 경우 서로 다른 최적의 인코딩을 갖습니다. 나는 첫 번째 시스템의 두 번째 시스템 인코딩을 사용하는 것이 두 번째 시스템의 첫 번째 시스템 인코딩을 사용하는 것이 "똑같이 나쁘다"고 본능적으로 느끼지 않습니다. 내가 어떻게 확신했는지에 대한 사고 과정을 거치지 않고 이제 의 인코딩을 사용할 때 는이 "추가 예상 메시지 길이"를 제공합니다 .q p

αpα(log2qαlog2pα)
qp

그러나 Wikipedia를 포함하여 KL 분기의 대부분의 정의는 우리가 두 개의 이산 확률을 갖는 경우 (이를 이산 용어로 유지하여 비트가 이산 일 때 이산 용어에서 훨씬 더 잘 작동하는 정보 이론 해석과 비교할 수 있도록) KL은 "얼마나 다른지"에 대한 통계를 제공합니다. 이 두 개념이 어떻게 관련되어 있는지에 대한 단일 설명은 아직 보지 못했습니다. Dave Mackay는 추론에 관한 그의 저서에서 데이터 압축과 추론이 기본적으로 어떻게 같은지에 대해 지적하며 내 질문이 실제로 이와 관련이 있다고 생각합니다.

그것이 있는지 아닌지에 관계없이, 내가 염두에 둔 질문은 추론의 문제에 관한 것입니다. 방사성 샘플이 두 개이고 그 중 하나가 알려진 방사능을 가진 특정 물질이라는 것을 알고 있다면 (이것은 모호한 물리학이지만 우주가 그렇게 작동한다고 가정합시다) 따라서 우리는 "진정한"분포를 알게됩니다. 우리가 측정해야 할 방사성 클릭의 수는 알려진 가진 포아 소니 안이어야합니다. 두 샘플 모두에 대한 경험적 분포를 구축하고 그들의 KL 발산을 알려진 분포와 비교하는 것이 공평합니까?λ

의심스러운 물리학에서 멀어지면 두 분포의 표본이 동일한 분포에서 추출되었다는 것을 알고 있지만 무작위로 선택되지 않았다는 것을 알면 KL 분기와 알려진 전역 분포를 비교하면 표본이 "편향된"방법에 대한 느낌을 갖게됩니다. 어쨌든 하나와 다른 상대?

마지막으로 이전 질문에 대한 대답이 예라면 왜 그렇습니까? 정보 이론과 (연약한) 연결을 만들지 않고 통계적 관점에서만 이러한 것들을 이해할 수 있습니까?


1
여기에 내 대답을 참조하십시오 : stats.stackexchange.com/questions/188903/… 이것은 정보 이론을 언급하지 않습니다
kjetil b halvorsen

1
KL 발산은 단순히 정보 이론 개념이 아닌가? 나는 그것이 베이지안 이전과 후부 또는 이와 유사한 것 사이의 상호 정보를 제공한다는 것을 알고 있으며, Fenchel 변환 / 활용 (큰 편차 이론)의 맥락에서 한 번 본 것을 기억하지만, 어쨌든 그것이 정보 이론 개념이라고 생각했습니다. .
Chill2Macht

답변:


23

쿨백 - 라이 블러 발산에 순전히 통계적인 접근 방법이 있습니다 : 샘플 걸릴 알 수없는 분포 IID 와 분포의 가족에 의해 잠재적 적합을 고려 해당 가능성은 로 정의됩니다. 로그는 따라서 어느 와 Kullback-Leibler 분기의 흥미로운 부분입니다.p F = { p θX1,,XnpL ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i ) 1

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
p θ p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
다른 부분 는 의 최소 ​​[the ] 가 0과 같도록 존재합니다.θ H ( p θ | p )
log{p(x)}p(x)dx
θH(pθ|p)

분기, 정보 이론 및 통계 추론을 연결하는이 책은 Rissanen의 인 매개 변수의 최적 추정 I 검토, 여기 .


이것의 수치 예를 볼 가능성이 있습니까?
Paul Uszak

글쎄, 나는 실제 숫자를 보는 것을 의미합니다. 이론은 귀엽지 만 세상은 숫자에 달려 있습니다. 실제 숫자를 사용하는 KL 발산의 예는 없으므로 가능한 적용이 불가능한 이론이라는 결론에 이끌 렸습니다. OP는 비트 단위의 메시지 길이와 데이터 압축에 대해 논의했습니다. 나는 ... 그것에서 비트의 수를 가지고 있던 예를 언급했다
폴 Uszak

2
@PaulUszak : N (0,1)과 N (1,1) 분포 사이의 Kullaback-Leibler 거리가 1/2이라고하면 어떻게 도움이됩니까?
Xi'an

2
@ Xi'an : 1/2과 해당 우도 비 검정력 사이에 어떤 연결이 있어야합니까?
kjetil b halvorsen

7
+1 댓글 스레드 : 마음은 "비트 수"로 줄일 수없는 개념이 쓸모 없다고 생각합니다.
whuber

8

다음은 IJ Good에서 느슨하게 취한 Kullback-Leibler 발산에 대한 통계적 해석입니다 ( 증거의 무게 : 간단한 조사 , Bayesian Statistics 2, 1985).

증거의 무게.

밀도가 일부 미지 분포의 독립 표본이라고 생각할만한 데이터 포인트 을 관찰한다고 가정합니다 . 가장 간단한 경우 에 대한 두 가지 가설 과 가 있습니다 ( 예 : 및 . 따라서 알 수없는 을 또는 중 하나로 모델링했습니다 .f 0 H 1 H 2 f 0 H 1 = { f 1 } H 2 = { f 2 } f 0 f 1 f 2x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

증거 가중치 샘플 용 대해 로 정의 가설 및 에 대한 사전 주어지면 수량을 해석하기가 쉽습니다 . 실제로이 경우 사후 로그 홀수는 + 이전 로그 홀수입니다. 이 수량에는 독립 샘플에 대한 가산 성 등의 여러 편리한 속성도 있습니다 H 1 H 2 W ( x ) = log f 1 ( x )x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
Good은 증거 가중치 사용에 대한 추가 정당성을 제공하며 는 Kullback과 Leibler (KL 분기를 도입 한 논문에서)에 의해 " 를 구별하기위한 의 정보" 라고도 합니다.W(x)xH1H2

요약하면, 표본 주어지면 증거 가중치 는 보유하고있는 증거의 양을 이해하는 데 도움이되는 구체적인 숫자입니다. 어떤 사람들은 심지어 " 는 강력한 증거입니다" 와 같은 경험 법칙을 사용하기도합니다 .xW(x)W(x)>2

쿨백-레 블러 발산

이제 사이의 쿨백 - 라이 블러 발산 및 는 IS 샘플에서 증거의 예상 무게 . 즉, f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

표본 은 에 대해 에 유리한 긍정적 인 증거를 제공 한다고 직관적으로 기대해야 하며, 이는 실제로 불평등 xf1H1={f1}H2

Exf1W(x)0.

1

이 두 개념이 어떻게 관련되어 있는지에 대한 단일 설명은 아직 보지 못했습니다.

정보 이론에 대해서는 잘 모르지만, 이것이 제가 생각하는 방식입니다. 정보 이론 사람이 "메시지 길이"라고 말하는 것을들을 때, 제 뇌는 "서프라이즈"라고 말합니다. 놀람은 1.) 무작위이며 2.) 주관적입니다.

1.) "서프라이즈"는 일부 분포 사용하여 임의의 변수 의 변환 일뿐 입니다. 서프라이즈는 로 정의되며 이는 불연속 랜덤 변수가 있는지 여부에 대한 정의입니다.Xq(X)logq(X)

서프라이즈는 임의의 변수이므로 결국 단일 숫자로 만들려고합니다. 2) "주관적"이라고 말하면 원하는 분포 ( )를 사용하여 를 변환 할 수 있습니다 . 그러나 "true"분포 와 관련하여 항상 기대됩니다 . 이들은 같거나 같지 않을 수 있습니다. true 변환 하면 이며 엔트로피입니다. 다른 분배 경우 아니다 동일한 , 당신은 얻을 , 그리고 크로스 엔트로피입니다. 잘못된 배포판을 사용하면 항상 예상보다 높은 놀라움을 경험할 수 있습니다.qXppEp[logp(X)]qpEp[logq(X)]

"얼마나 다른지"에 대해 생각하는 대신 "잘못된 분포를 사용하면 예상되는 놀라움이 증가합니다." 이것은 모두 로그 속성에서 비롯된 것입니다.

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

편집하다

" 가"서프라이즈 "의 측정 방법에 대해 자세히 설명 할 수 있습니까 ?이 수량만으로는 샘플 공간의 선형 변환에서 변하지 않기 때문에 의미가없는 것 같습니다 ( 는 pdf) "log(q(x))q

우선, 값을 매핑하는 것에 대해 생각해보십시오 . 당신이있는 경우 특정 값의 매핑 에 다음, . 불연속 랜덤 변수의 경우 확률 실현 은 "서프라이즈" 입니다.Xqx0log(0)=10

둘째, 는 주입식이므로 드문 값이 드문 값보다 덜 놀라운 방법은 없습니다.log

연속 랜덤 변수의 경우 은 음의 놀라움과 일치합니다. 나는 이것이 단점이라고 생각한다.q(x)>1

올리비에 (Olivier)는 자신의 "증거 중량"수량에 대해 선형 변형에서 불변이라고 부르는 속성을 암시하고있는 것으로 보입니다 (샘플 공간의 의미를 완전히 이해하지 못함). 아마도 그는 라면만큼 연속이다. Jacobian으로 인해 분명히 입니다.XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

그래도 이것이 어떻게 "무의미한"양으로 표현되는지는 알 수 없습니다. 실제로이 경우 불변이 바람직한 특성 인 이유를 이해하기가 어렵습니다. 규모가 중요 할 것입니다. 앞서, 기념에서, 분산의 예를 언급했는데, 여기서 우리가 기대하는 랜덤 변수는 입니다. 이것을 "극단 성"으로 해석 할 수 있습니다. 이 수치는 불변성이 부족하기도하지만, 그것이 무엇인지에 대한 무의미한 사람들의 직관은 아닙니다.(XEX)2

편집 2 : 나는 이것을 "놀람"이라고 생각하는 유일한 사람이 아닌 것 같습니다. 에서 여기 :

조건부 인 데이터 의 잔차 정보는 로 정의 될 수있다 (Kullback and Leibler, 1951; Burnham and Anderson, 1998) '놀람'(Good, 1956), 대수 페널티 (Bernardo, 1979) 또는 불확실성의 척도로 해석 될 수있다.yθ2log{p(yθ)}


1
가 "놀람"의 척도 에 대해 자세히 설명 할 수 있습니까 ? 이 양만으로는 샘플 공간의 선형 변환에서 변하지 않기 때문에 의미가없는 것 같습니다 ( 는 pdf 라고 가정합니다 ). qlog(q(x))q
Olivier

1
변환 , 이라고합시다 . 는 돌이킬 수 없기 때문에 를 관찰하는 것은 나에게 를 관찰하는 것과 같습니다 . 하나를 다른 것으로 쉽게 변환 할 수 있습니다. 왜 더 관찰 놀라게한다 관찰에서 나보다 ? ( 경우 이러한 모순을 피하려면 반전 변환에서 가 필요합니다. T ( X ) = a X a 0 T T ( x ) x T ( x ) x log q T ( X ) ( T ( x ) ) > log q X ( x )TT(X)=aXa0TT(x)xT(x)xlogqT(X)(T(x))>logqX(x)
Olivier

@Olivier 예, 이것은 이미 내 편집에서 모두 다루었습니다. 모순이 보이지 않습니다. 변형 기대하는 분산을 고려하십시오 . 이 난수를 "극단 성"으로 간주 할 수 있습니다. 그러나 당신은 내가 불변의 부족에 대해 불평하는 것을 보지 못합니다(XE[X])2
Taylor
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.