확률 분포가 균일 할 때 엔트로피가 최대화되는 이유는 무엇입니까?


32

엔트로피는 프로세스 / 변수의 임의성 측정 기준이며 다음과 같이 정의 할 수 있습니다. 랜덤 변수 세트 :XAH(X)=xiAp(xi)log(p(xi)) . MacKay의 Entropy and Information Theory에 관한 책에서 그는 Ch2에서이 진술을 제공합니다.

p가 균일하면 엔트로피가 최대화됩니다.

직관적으로, 세트 모든 데이터 포인트 가 동일한 확률 ( 은 카디널리티 세트 카디널리티 )으로 선택되면 임의성 또는 엔트로피가 증가하는 것처럼 이해할 수 있습니다. 그러나 우리가 세트 일부 점을 알고 있다면A1/mmAA 보다 확률이 더 높다는 (예를 들어 정규 분포의 경우 데이터 점의 최대 농도가 그 주위의 평균 및 작은 표준 편차 영역 주위에있는 경우 임의성) 엔트로피가 감소해야합니다.

그러나 이것에 대한 수학적 증거가 있습니까? 대한 방정식과 같이 p ( x )에H(X) 대해 미분p(x) 0 또는 그와 비슷한 것으로 설정합니다.

참고로, 정보 이론에서 발생하는 엔트로피와 화학 (열역학)의 엔트로피 계산 사이에 연결이 있습니까?


2
이 질문은 stats.stackexchange.com/a/49174/919 에서 (통과 중) 답변 됩니다.
whuber

크리스토퍼 비숍 스 (Christopher Bishops)의 저서에서“엔트로피를 최대화하는 분포는 가우시안 (Gaussian)”이라는 단일 진술과 혼동되고 있습니다. 또한 "주어진 공분산에 대해 최대 엔트로피를 갖는 다변량 분포는 가우시안 (Gaussian)"이라고 말합니다. 이 진술은 어떻게 유효합니까? 균일 분포의 엔트로피가 항상 최대가 아닌가?
user76170

6
최대화는 항상 가능한 솔루션에 대한 제약 조건에 따라 수행됩니다. 제약 조건이 모든 확률이 사전 정의 된 한계를 넘어 사라져야하는 경우 최대 엔트로피 솔루션은 균일합니다. 대신 기대 값과 분산이 미리 정의 된 값과 같아야한다는 제약 조건이있는 경우 ME 솔루션은 가우스입니다. 귀하가 인용 한 진술은 이러한 제약이 명시되거나 적어도 암시 적으로 이해되는 특정 상황에서 이루어져야합니다.
whuber

2
또한 "엔트로피"라는 단어는 가우시안 설정에서 원래의 질문과는 다른 의미를 지니고 있다는 점을 언급해야합니다. 그러므로 우리는 연속 분포의 엔트로피를 논의 하고 있습니다. 이 "차동 엔트로피" 는 이산 분포의 엔트로피와는 다른 동물입니다. 가장 큰 차이점은 변수의 변화에 ​​따라 차분 엔트로피가 변하지 않는다는 것입니다.
whuber

그렇다면 최대화는 항상 제약 조건과 관련이 있습니까? 제약이 없으면 어떻게합니까? 이런 질문이있을 수 없나요? 최대 엔트로피를 갖는 확률 분포는 어느 것입니까?
user76170

답변:


25

경험칙에 확률 밀도 함수 최대 엔트로피를 갖는 x n }{ x 1 , x 2 , 에 대한 최소한의 지식에 해당하는 것으로 판명되었습니다 . . , . x n } 즉, 균일 분포입니다.{x1,x2,..,.xn}{x1,x2,..,.xn}

이제 더 공식적인 증거를 얻으려면 다음을 고려하십시오.

의 확률 밀도 함수 . . , . x n } 은 음이 아닌 실수 p 1 , 의 집합입니다 . . . , P는 N 1. 엔트로피까지 추가의 연속 함수이며 , N의 -tuples ( P 1 , . . . , P에 해당 ) ,이 점은 컴팩트 서브셋에 놓여 R N 그래서가, n은{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn-tuple where entropy is maximized. We want to show this occurs at (1/n,...,1/n) and nowhere else.

Suppose the pj are not all equal, say p1<p2. (Clearly n1.) We will find a new probability density with higher entropy. It then follows, since entropy is maximized at some n-tuple, that entropy is uniquely maximized at the n-tuple with pi=1/n for all i.

Since p1<p2, for small positive ε we have p1+ε<p2ε. The entropy of {p1+ε,p2ε,p3,...,pn} minus the entropy of {p1,p2,p3,...,pn} equals

증거를 완성하기 위해, 충분히 작은ε에대해 양수로 표시하고 싶습니다. 위의 방정식을 p1log(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

그 리콜 작은 대한 X , 상기 식 인 - ε - ε 로그 P 1 + ε + ε 로그 P 2 + O ( ε 2 ) = ε 로그 ( P 2 / P 1 ) + O ( ε 2 ) 때 긍정적 인log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp 1 < p 2 이후로 충분히 작음p1<p2 .

덜 엄격한 증거는 다음과 같습니다.

먼저 다음의 Lemma를 고려하십시오.

하자 Q ( X를 ) 구간에 연속적인 확률 밀도 함수가 될 I 와 실제 숫자, P 0Q > 0I . 우리는이 - I 페이지 로그인 페이지 D X - I 페이지의 로그 Q D X를 모두 적분이 존재합니다. 또, 항등 경우에만,가 P ( X ) = Q (p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)모든 x .

이제 { x 1 ,의 확률 밀도 함수 라고하자 . . . , x n } , p i = p ( x i ) 입니다. 시키는 q를 나는 = 1 / n은 모든 I , - N Σ는 i가 = 1 P 로그 Q를 I를 = N Σ는 i가 = 1 P 로그 N을 =p{x1,...,xn}pi=p(xi)qi=1/ni 의 엔트로피 Q를 . 따라서 우리의 Lemma는 h ( p ) h ( q ) 라고 말하고 p 가 균일 한경우에만 동등합니다.

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

또한 위키피디아는 이것에 대한 간단한 토론을합니다 : wiki


11
초등 (칼럼이없는) 증거를 제시하려는 노력에 감탄합니다. 을 기록하여 가중 AM-GM 불평등 을 통해 엄격한 단선 데모를 사용할 수 있습니다.exp(H)(1pi)pipi1pi=n1/pi

로그로그

4
i=1npilogn=logni=1npilogn=logni=1npi=logn×1

로그i1p1,,pn

자세한 내용은 여기에서 찾을 수 있습니다. math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

물리학과 정보 이론의 엔트로피는 관련이 없습니다. 그것들은 이름이 제시하는 것보다 더 다르지만 분명히 사이에 연관성이 있습니다. 엔트로피 메트릭의 목적은 정보의 양을 측정하는 것입니다. 엔트로피가 균일 분포에서 험피 한 분포로 어떻게 변하는 지 보여주는 그래프로 내 대답 을 참조하십시오 .

균일 분포에 대해 엔트로피가 최대화되는 이유는 그렇게 설계 되었기 때문입니다! 그렇습니다. 정보 부족에 대한 측정 값을 구성하여 정보가 가장 적은 분포에 최고의 가치를 부여하려고합니다.

예. 나는 당신에게 " 여보 내 차 어 where 어 ?" 당신의 대답은 "미국 대서양과 태평양 사이의 어딘가에 있습니다"입니다. 이것은 균일 분포의 예입니다. 내 차는 미국 어딘가에있을 수 있습니다. 이 답변에서 많은 정보를 얻지 못했습니다.

그러나 "1 시간 전 워싱턴 DC에서 66 번 국도로 향하는 차량을 보았습니다"라고 말하면 더 이상 균일 한 분포가 아닙니다. 자동차는 로스 앤젤레스 근처 어느 곳보다 DC에서 60 마일 거리에있을 가능성이 높습니다. 여기에 더 많은 정보가 있습니다.

따라서 우리의 측정 값은 첫 번째 답에 대해서는 높은 엔트로피를 가져야하고 두 번째 답에 대해서는 낮은 엔트로피를 가져야합니다. 유니폼은 정보 제공이 가장 적어야하며 기본적으로 "모름이 없습니다"라는 대답입니다.


7

수학적 주장은 오목한 함수에 대한 젠슨의 불평등에 근거합니다. 즉,에프(엑스) 에 오목한 기능입니다 [에이,]와이1,와이 에 포인트 [에이,]그런 다음 : 에프(와이1+와이)에프(와이1)++에프(와이)

오목한 기능에 적용 에프(엑스)=엑스로그(엑스) 젠슨 불평등 와이나는=(엑스나는)증거가 있습니다. 참고(엑스나는) 불연속 확률 분포를 정의하면 그 합은 1입니다. 영형()나는=1(엑스나는)영형((엑스나는))균일 분포에 대해 동일합니다.


1
나는 Jensen의 불평등 증거가 AM-GM보다 개념적으로 훨씬 더 깊은 증거라고 생각합니다.
Casebash

4

참고로, 정보 이론에서 발생하는 엔트로피와 화학 (열역학)의 엔트로피 계산 사이에 연결이 있습니까?

예, 있습니다! Jaynes 와 다른 많은 사람들이 그의 작업을 따르는 것을 볼 수 있습니다 (예를 들어 여기여기 등).

그러나 주요 아이디어는 통계 역학 (및 과학의 다른 분야도)이 우리가 세계에 대해 추론 하는 것으로 볼 수 있다는 것입니다 .

더 읽어 보면 이 주제에 대한 Ariel Caticha의 책 을 추천 합니다.


1

직관적 인 설명 :

확률 변수를 확률 변수의 한 사건에 더 넣으면 다른 사건에서 일부를 제거해야합니다. 하나는 정보 내용과 무게가 적고, 다른 하나는 정보 내용과 무게가 적습니다. 따라서 정보 내용이 낮은 이벤트에 가중치가 더 많이 부여되므로 예상 정보 내용 인 엔트로피가 다운됩니다.

극단적 인 경우에 하나의 사건이 거의 하나의 확률을 얻는다고 가정하면, 다른 사건은 거의 0의 결합 확률을 가지며 엔트로피는 매우 낮을 것입니다.


0

주요 아이디어 : 각각의 부분 미분 나는, 모두 0으로 설정하고 선형 방정식 시스템을 풉니 다.

유한 한 수의 나는 어디에 나는=1,...,예를 들어. 표시=1나는=01나는.

H=나는=01나는로그나는(1)로그Hln2=나는=01나는ln나는(1)ln
H나는=ln나는=0
그때 =나는 모든 나는즉, 1=2=...=.


이것이 "주된 아이디어"라는 점을 지적하게되어 기쁩니다. 분석의 일부일뿐입니다. 직관적이지 않고 실제로 조금 까다로운 다른 부분은 엔트로피의 동작을 하나 이상의나는 0으로 줄어 듭니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.