차동 엔트로피를 해석하는 방법?


15

나는 최근 에 이산 확률 분포의 엔트로피에 관한 기사를 읽었다 . 사용 하는 단어의 확률 분포를 고려하여 인코딩이 최적 일 때 메시지를 인코딩하는 데 필요한 예상 숫자 비트 (적어도 엔트로피 정의에서 를 사용하는 경우)로 엔트로피를 생각하는 좋은 방법을 설명합니다 .log2

그러나 여기 와 같은 연속 사례로 확장 할 때 연속 확률 분포 대해 이기 사고 방식이 생각합니다 잘못된 경우 수정하십시오). 별개의 경우처럼 연속 엔트로피가 무엇을 의미하는지에 대한 좋은 생각이 있는지 궁금합니다.p ( x )xp(x)=p(x)


엔트로피와 차동 엔트로피에 관한 Wikipedia 기사를 읽으려고 했습니까?
ttnphns

연속 분포에는 확률 질량 함수가 없습니다. 연속적인 경우의 아날로그는 확률 밀도의 적분이며 x의 전체 범위에 걸친 적분은 1과 같습니다.
Michael R. Chernick

@MichaelChernick 나는 그것을 가지고 있다고 말하지 않았지만, 이산 사례에 대해 생각하는 방식은 그 합이 1이라는 사실에 의존합니다.
dippynark

@ttnphns no havent,하지만 지금 확인하겠습니다. 감사합니다.
dippynark

Shannon 엔트로피의 해석에 대해서는 stats.stackexchange.com/questions/66186/… 도 참조하십시오 . 일부 아이디어는 이전 될 수 있습니다.
kjetil b halvorsen

답변:


15

엔트로피와 마찬가지로 의미가 있거나 유용한 차동 엔트로피에 대한 해석은 없습니다. 연속 랜덤 변수의 문제점은 값이 일반적으로 0 확률이므로 인코딩하기 위해 무한한 수의 비트가 필요하다는 것입니다.

만약 간격 가능성 측정함으로써 이산 엔트로피의 한계 보면 하면 끝낼[nε,(n+1)ε[

p(x)log2p(x)dxlog2ε

차등 엔트로피가 아닙니다. 이 수량은 더 의미가 있지만 더 작은 간격을 가지면 무한대로 분기됩니다. 많은 간격 중 임의의 간격 값이 떨어지는 간격으로 인코딩하려면 점점 더 많은 비트가 필요하기 때문에 이치에 맞습니다.

연속 분포를 살펴 보는 데 더 유용한 양은 상대 엔트로피 (Kullback-Leibler divergence)입니다. 이산 분포의 경우 :

DKL[P||Q]=xP(x)log2P(x)Q(x).

실제 분포가 일 때 사용되는 추가 비트 수를 측정 하지만 비트를 사용하여 를 인코딩 합니다. 상대 엔트로피의 한계를 극복하고PlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

이 취소 되기 때문 입니다. 연속 분포의 경우 이것은 무한 작은 빈의 한계에 사용되는 추가 비트 수에 해당합니다. 연속 분포와 불연속 분포의 경우 항상 음이 아닙니다.log2ε

이제, 우리 는 차분 엔트로피를 와 비정규 밀도 사이의 음의 상대 엔트로피로 생각할 수 있습니다 .p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

해석은 비트를 사용하여 번째 간격을 대신 사용하여 필요한 비트 수의 차이입니다. 의는 비트. 전자가 최적이더라도, 가 부정 행위를하므로 (1에 통합하지 않음) 이론적으로 가능한 것보다 평균적으로 적은 비트를 할당 할 수 있기 때문에이 차이는 이제 음수 일 수 있습니다.log2nε(n+1)εp(x)dxnlogελ

상대 엔트로피에 대한 훌륭한 소개는 Sergio Verdu의 이야기 를 참조하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.