KL 발산이 왜 음이 아닌가?

정보 이론의 관점에서 나는 다음과 같은 직관적 인 이해를 얻었습니다.

레이블이 지정된 동일한 요소 세트로 구성된 두 개의 앙상블 $A$ 와 가 있다고 가정하십시오 . 와 는 각각 앙상블 와 서로 다른 확률 분포 입니다. $B$ $x$ $p(x)$ $q(x)$ $A$ $B$

정보 이론의 관점에서 는 앙상블 대한 요소 를 기록하는 데 필요한 최소 비트 수입니다 . 따라서 기대 는 최소한 요소 를 평균적으로 기록하는 데 필요한 비트 수로 해석 될 수 있습니다 . $\log_{2}(P(x))$ $x$ $A$

\sum_{x \in e n s e m b l e} - p (x) \ln (p (x))

$\sum_{x \in ensemble}-p(x)\ln(p(x))$

A

$A$

이 공식은 우리가 평균적으로 필요한 비트에 하한을두기 때문에 다른 확률 분포 를 일으키는 다른 앙상블 경우 각 요소 에 대해 주어진 경계 는 반드시 비트가 아닙니다. 주어짐에 따라, 기대를 취하는 것은 $B$ $q(x)$ $x$ $p(x)$

\sum_{x \in e n s e m b l e} - p (x) \ln (q (x))

$\sum_{x\in ensemble}-p(x)\ln(q(x))$ 이 평균 길이는 반드시 이전 길이보다 길어

와

가 다르기때문에 여기 에

넣지 않습니다.

\sum_{x \in e n s e m b l e} p (x) \frac{\ln (p (x))}{\ln (q (x))} > 0

$\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0$

\geq

$\ge$

p (x)

$p(x)$

q (x)

$q(x)$

이것은 나의 직관적 인 이해입니다. KL 발산이 음이 아닌 것을 증명하는 순수한 수학적 방법이 있습니까? 문제는 다음과 같이 말할 수 있습니다.

주어진 와 는 모두 실선에 대해 양수이며 , 입니다. 증명 $p(x)$ $q(x)$ $\int_{-\infty}^{+\infty}p(x)dx = 1$ $\int_{-\infty}^{+\infty}q(x)dx = 1$ 는 음이 아닙니다.

\int_{- \infty}^{+ \infty} p (x) \ln \frac{p (x)}{q (x)}

$\int_{-\infty}^{+\infty}p(x)\ln\frac{p(x)}{q(x)}$

이것이 어떻게 증명 될 수 있습니까? 아니면 추가 조건없이 증명할 수 있습니까?

information-theory kullback-leibler

— 차이코프스키
소스

Fano의 불평등 의 증거를 이해하면 상대 엔트로피의 비 음성을 쉽게 도출 할 수 있습니다.

— Lerner Zhang

증명 1 :

$\ln a \leq a-1$ $a \gt 0$

$-D_{KL}(p||q) \leq 0$ $D_{KL}(p||q) \geq 0$

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \ln \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \ln \frac{q (x)}{p (x)} \\ \overset{(a)}{\leq} \sum_{x} p (x) (\frac{q (x)}{p (x)} - 1) \\ = \sum_{x} q (x) - \sum_{x} p (x) \\ = 1 - 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\ln \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\ln \frac{q(x)}{p(x)}\\ &\stackrel{\text{(a)}}{\leq} \sum_x p(x)\left(\frac{q(x)}{p(x)}-1\right)\\ &=\sum_x q(x) - \sum_x p(x)\\ &= 1 - 1\\ &= 0 \end{align}$

For inequality (a) we used the $\ln$ inequality explained in the beginning.

Alternatively you can start with Gibbs' inequality which states:

- \sum_{x} p (x) \log_{2} p (x) \leq - \sum_{x} p (x) \log_{2} q (x)

$-\sum_x p(x) \log_2 p(x) \leq -\sum_x p(x)\log_2 q(x)$

Then if we bring the left term to the right we get:

\sum_{x} p (x) \log_{2} p (x) - \sum_{x} p (x) \log_{2} q (x) \geq 0 \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \geq 0

$\sum_x p(x) \log_2 p(x) - \sum_x p(x)\log_2 q(x)\geq 0 \\ \sum_x p(x)\log_2 \frac{p(x)}{q(x)}\geq 0$

The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.

Proof 2: We use the Log sum inequality:

\sum_{i = 1}^{n} a_{i} \log_{2} \frac{a_{i}}{b_{i}} \geq (\sum_{i = 1}^{n} a_{i}) \log_{2} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}}

$\sum_{i=1}^{n} a_i \log_2 \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right)\log_2\frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

Then we can show that $D_{KL}(p||q) \geq 0$ :

\begin{aligned} D (p | | q) & = \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ \overset{(b)}{\geq} (\sum_{x} p (x)) \log_{2} \frac{\sum_{x} p (x)}{\sum_{x} q (x)} \\ = 1 \cdot \log_{2} \frac{1}{1} \\ = 0 \end{aligned}

$\begin{align} D(p||q)&=\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &\stackrel{\text{(b)}}{\geq} \left(\sum_x p(x)\right)\log_2\frac{\sum_x p(x)}{\sum_x q(x)}\\ &=1 \cdot \log_2 \frac{1}{1}\\ &=0 \end{align}$

where we have used the Log sum inequality at (b).

Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \log_{2} \frac{q (x)}{p (x)} \\ \overset{(c)}{\leq} \log_{2} \sum_{x} p (x) \frac{q (x)}{p (x)} \\ = \log_{2} 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\log_2 \frac{q(x)}{p(x)}\\ &\stackrel{\text{(c)}}{\leq} \log_2 \sum_x p(x)\frac{q(x)}{p(x)}\\ &=\log_2 1\\ &=0 \end{align}$

where at (c) we have used Jensen's inequality and the fact that $\log$ is a concave function.

— Andreas G.
소스