Kullback-Leibler 거리의 적응?


28

이 사진을보세요 : 여기에 이미지 설명을 입력하십시오

적색 밀도에서 표본을 추출하면 일부 값은 0.25보다 작을 것으로 예상되지만 청색 분포에서 이러한 표본을 생성하는 것은 불가능합니다. 결과적으로 빨간색 밀도에서 파란색 밀도까지의 쿨백-레 블러 거리는 무한대입니다. 그러나 두 곡선은 "자연적인 의미"로는 그다지 뚜렷하지 않습니다.

여기 내 질문이 있습니다 :이 두 곡선 사이의 유한 거리를 허용하는 쿨백-라이버 거리의 적응이 있습니까?


1
이 곡선들은 어떤 "자연스런 의미"에서 "그다지 뚜렷하지 않습니까"? 이 직관적 친밀감은 통계적 속성과 어떤 관련이 있습니까? (나는 몇 가지 답변을 생각할 수 있지만 당신이 생각하는 것이 궁금합니다.)
whuber

1
글쎄 ... 둘 다 양수 값으로 정의된다는 점에서 서로 매우 가깝습니다. 그들은 증가하고 감소합니다. 둘 다 실제로 같은 기대를 가지고있다. x 축의 일부로 제한하면 Kullback Leibler의 거리는 "작은"입니다 ... 그러나 이러한 직관적 인 개념을 통계적 속성에 연결하려면 이러한 기능에 대한 엄격한 정의가 필요합니다 ...
ocram

답변:


18

1996 년 Springer, Springer, 1996 년 Devroe, Gyorfi, Lugosi 의 확률 론적 패턴 이론 3 장을 살펴볼 수있다 . 특히 분화 에 관한 부분을 보라.f

ff 분산은 Kullback--Leibler의 일반화로 볼 수 있습니다 (또는 KL은 발산 의 특수한 경우로 볼 수 있음 ).f

일반적인 형식은

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

여기서 는 및 와 관련된 측정 값을 지배하는 측정 값 이고 는 만족하는 볼록 함수 입니다. ( 와 가 Lebesgue 측정과 관련하여 밀도 인 경우 표기법 을 됩니다.)p q f ( ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

를 사용하여 KL을 복구 합니다. 우리는 를 통해 Hellinger의 차이를 얻을 수 있으며 를 취함으로써 총 편차 또는 거리를. 후자는f ( x ) = ( 1 f(x)=xlogxL1f(x)= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

이 마지막 것은 적어도 당신에게 유한 한 대답을줍니다.

Density Estimation : The ViewL1 라는 또 다른 작은 책 에서 Devroye는 많은 다른 불변성 속성으로 인해이 후자의 거리를 사용할 것을 강력하게 주장합니다. 이 후자의 책은 아마도 이전의 책보다 붙잡기가 다소 어려우며 제목에서 알 수 있듯이 조금 더 전문적입니다.


부록 : 이 질문을 통해 @Didier가 제안하는 측정 값이 Jensen-Shannon Divergence라고 알려진 것으로 나타났습니다. 해당 질문에 제공된 답변에 대한 링크를 따르면이 수량의 제곱근이 실제로 메트릭이며 이전에 문헌에서 divergence 의 특별한 경우로 인식 되었음을 알 수 있습니다 . 나는 우리가이 질문에 대한 토론을 통해 바퀴를 (재빨리) "재창조"한 것으로 흥미로웠다. @Didier의 답변 아래의 의견에서 내가 준 해석도 이전에 인정되었습니다. 실제로 모든 것이 깔끔합니다.f


1
아주 좋아요! "패턴 인식의 확률론"을 찾아 3 장을 이해하려고합니다!
ocram

1
좋은 대답은, 대부분 가 거리의 절반이되는 다른 방법으로 정의 된 것 입니다. L 1DTVL1
로빈 지라드

1
@ 로빈, 귀하의 의견에 감사드립니다. 예, 나는 이것을 알고 있습니다. 나는 박람회에서 지저분한 외래 상수를 피하려고했습니다. 그러나 엄밀히 말하면 당신은 맞습니다. 그에 따라 업데이트했습니다.
추기경

3
부록은 지금까지 stats.SE에서 가장 유용한 정보입니다. 이것에 대한 모든 따뜻한 감사. 나는 여기에 당신이 준 참조를 여기에 재현한다 : research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres and Schindelin, 확률 분포에 대한 새로운 지표, IEEE Trans. 정보에. 그대의. , vol. 49 번 3, 2003 년 7 월, pp. 1858-1860.
나요

1
@Didier, 다른 무엇보다 행복한 사고였습니다. 다른 질문에 아무도 대답하지 않았으므로 Jensen-Shannon Divergence가 무엇인지 먼저 알아 내려고 결심했습니다. 정의를 찾은 후에는 부록을 통해 두 질문을 연결하는 것이 합리적으로 보였습니다. 도움이 되셨 다니 다행입니다. 문안 인사.
추기경

19

쿨백 - 라이 블러 발산 의 에 대하여 경우 무한 에 대하여 반드시 연속적이지 측정 가능한 세트가 존재이며, 되도록 및 . 또한 KL 발산은 일반적으로 라는 의미에서 대칭이 아닙니다 . 그 리콜 여전히 KL 발산을 기반으로하는이 두 가지 결점에서 벗어나는 방법은 중간 점 을 도입하는 것 따라서P Q P Q A Q ( A ) = 0 P ( A ) 0 κ ( P Q ) κ ( Q P ) κ ( P Q ) = P 로그 ( Pκ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)R=1

κ(PQ)=Plog(PQ).
RPQRPQRη(P,Q)=κ(PR)+κ(QR). η(P,Q)PQηη(P,Q)=η(Q,P)PQη(
R=12(P+Q).
R는 확률 측정 값이며 와 는 항상 대해 절대적으로 연속적입니다 . 따라서 하나 사이의 "거리"고려할 수 와 여전히 KL 발산 있지만 사용에 기초하여 로 정의 이어서 모든 대 비음 및 유한 와 , 점에서 대칭이 마다에 대한 및 및 IFF .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

동등한 공식은

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

부록 1 개 의 중간 도입 와 점에서 임의 아니라고 여기서 최소값은 확률 측정 값 세트를 초과합니다.Q η ( P , Q ) = 최소 [ κ ( P ) + κ ( Q ) ] ,PQ

η(P,Q)=min[κ(P)+κ(Q)],

부록 2 @ 카디널 은 볼록 함수 대해 는 분산이라고 말합니다. ηf ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .f

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco, @Didier Piau, @Didier의 제안은 인 divergence 의 또 다른 특별한 사례입니다. . f ( x ) = x log x ( 1 + x ) 로그 ( 1 + xff(x)=xlogx(1+x)log(1+x2)
추기경

1
@Marco, @Didier Piau, 일부 연상적인 성질을 갖는 대체 제제는 및 여기서 즉, 는 "평균 측정 값의 엔트로피와 측정의 평균 엔트로피 ".η ( P , Q ) = 2 ( H ( μ ( P , Q ) ) - μ (η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))μ ( x , y ) = x + yη(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q)) 1μ(x,y)=x+y212η(P,Q)
추기경

3
젠슨-샤논 (Jensen-Shannon) 발산이 아닌가?
Memming


"최소값이 확률 측정 값 세트를 초과합니다." 나는 Jensen–Shannon 분기의 특성을 좋아합니다. 어딘가에 증거가 있습니까?
user76284

10

두 분포 와 사이 의 Kolmogorov 거리는 CDF의 최고 표준입니다. (이것은 CDF의 두 그래프 사이에서 가장 큰 수직 불일치입니다.) 는 가정 된 분포이고 는 데이터 세트의 경험적 분포 함수 인 분포 테스트에 사용됩니다 .Q P QPQPQ

이것을 KL 거리의 "적응"으로 특성화하기는 어렵지만 "자연스럽고 유한 한"다른 요구 사항을 충족합니다.

또한 KL 발산이 실제 "거리"가 아니기 때문에 거리의 모든 공리적 특성을 보존하는 것에 대해 걱정할 필요가 없습니다. 일부 유한 값 대해 단조 변환 를 적용하여 값을 유한하게 만들면서 비 음성 속성을 유지할 수 있습니다 . 예를 들어 역 탄젠트가 좋습니다.CR+[0,C]C


1
Kolmogorov 거리에 대한 제안을 보내 주셔서 감사합니다. 단조로운 변환에 대한 의견을 좀 더 명확하게 할 수 있습니까? Thx
ocram

1
@Marco 나는 어떻게 더 명백해질 수 있는지 이해하지 못한다. 대해 또는 와 같은 수식으로 쓴 내용을 다시 쓰시겠습니까? 함께 의미 모두 ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber

1
그렇습니다, 그것은 내가 의미 한 것입니다 :-) 나는 변환을 적용 할 것이 확실하지 않았습니다. 지금, 그것은 분명하다
ocram

1
@Marco : 나는 길을 잃었다. 당신은 Kolmogorov 거리에 정착합니까 (항상 유한하지만 KL 발산과 아무런 관련이 없음)? 또는 KL 분기의 경계 모노톤 변환 (예 : )? 게시물의 예에서 (그리고 절대적으로 연속적이지 않은 다른 예에서) 후자는 변환의 최상위를 생성합니다 ( 정착하면 ). 실제로, 이것은 확률 값 사이 의 거리훨씬 더 멀리 있다고 말하는 것보다 더 정확하게 추정한다는 아이디어를 포기합니다 ( 또는 로 인코딩하든 상관 없음). arctanπ/2arctanπ/2+
않았다

@Didier 그렇습니다. 변형 된 KL 발산 (설명한대로 대칭을 적용 할 때)은 삼각형 부등식을 만족시키지 못하므로 거리가 아니더라도 여전히 토폴로지를 정의합니다 (만족할 수 있음). 따라서 당신은 거의 또는 아무것도 포기하지 않을 것입니다. 나는 이것이 어떤 일을하는 것의 장점에 대해 불가지론 적으로 남아있다. 이것은 이것이 처음으로 KL 발산의 무한한 가치와 관련된 어려움을 문서화하는 방법 인 것 같다.
whuber

2

그렇습니다. Bernardo와 Reuda는 "내재적 불일치"라는 것을 정의했는데, 이는 모든 목적을 위해 KL- 분산의 "대칭"버전입니다. KL 분기를 에서 로 취함 본질적 불일치는 다음과 같이 주어집니다.PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

고유 불일치 (또는 베이지안 참조 기준)를 검색하면이 측정에 대한 기사가 제공됩니다.

귀하의 경우 유한 한 KL 발산을 취할 것입니다.

KL에 대한 또 다른 대안은 Hellinger 거리입니다.

편집 : 설명, 일부 의견 제기 한 밀도 0 다른 밀도가 아닐 때 본질적 불일치가 유한하지 않을 것이라고 제안했습니다. 제로 밀도를 평가하는 작업이 제한 또는 으로 수행되는 경우에는 해당되지 않습니다 . 한계는 잘 정의 되어 있으며 KL 분기 중 하나는 이고 다른 하나는 분기됩니다. 이 메모를 보려면Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

적분 영역에 대해 으로 제한을 취 하면 두 번째 적분이 분기되고 첫 번째 적분 이이 영역 에서 수렴합니다 (조건이 한계와 적분을 교환 할 수 있다고 가정). 이는 이기 때문 입니다. 와 의 대칭으로 인해 결과도 됩니다.P00limz0zlog(z)=0PQQ


1
때에도 "본질적인 차이는"무한이 긍정적 대한 확률 제로 와 , 그 반대도 마찬가지 더라도 와 달리 동일하다. PQPQ
whuber

1
예 ... 본질적 불일치가 요구 사항을 충족하지 못할 까봐 두렵습니다. 그러나 제안에 감사드립니다. 다른 제안은 감사하겠습니다.
ocram

1
그것은 당신이 엄격하게 긍정적 인 지원을하고있다 곳으로 파란색 밀도의 지원을 제한 할 경우 빨간 하나 (> 0)에 대한이와 마찬가지로, 요구 사항을 충족하지 않습니다
probabilityislogic

3
@ probabilityislogic : 나는 당신의 마지막 말을 이해하지 못합니다. 첫째, 우리가 관련된 개념에 자신의 적절한 이름을 부여하자 말할 에 대한 절대적 연속 (표시 , 모든 측정을위한 경우) , 의미 . 이제, 당신은 다소 신비한 (제게) 한계 고려 사항에도 불구하고 는 유한 또는 입니다. ... / ...에이(에이)=0(에이)=0δ(,)
나요

2
... / ... 수수께끼에서 빠져 나오는 방법은 중간 지점 측정 값 를 소개하는 것일 수 있습니다 . 이후 및 , 양 유한 항상이다. 또한 iff 이고 는 대칭입니다. 따라서 실제로 와 사이의 일종의 "거리"를 측정합니다 . P P + Q Q P + Q η ( P , Q ) : = κ ( P | P + Q ) + κ ( Q | P + Q ) η ( P , Q ) = 0 P = Q η η ( P , Q ) P Q+++η(,): =κ(|+)+κ(|+)η(,)=0=ηη(,)
나요
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.