엔트로피는 우리에게 무엇을 말합니까?


32

엔트로피 에 대해 읽고 있으며 연속 사례에서 의미하는 바를 개념화하는 데 어려움을 겪고 있습니다. 위키 페이지는 다음을 나타냅니다.

모든 이벤트의 정보량과 결합 된 이벤트의 확률 분포는 예상 값이이 분포에 의해 생성 된 평균 정보량 또는 엔트로피 인 랜덤 변수를 형성합니다.

연속적인 확률 분포와 관련된 엔트로피를 계산하면 실제로 무엇을 알 수 있습니까? 그들은 동전 뒤집기에 대한 예를 제시하므로 개별 사례이지만 연속 사례와 같은 예를 통해 직관적으로 설명 할 수 있다면 훌륭합니다!

그것이 도움이된다면, 연속 랜덤 변수 대한 엔트로피의 정의 X는 다음과 같습니다.

여기서 P ( x ) 는 확률 분포 함수입니다.

H(X)=P(x)logbP(x)dx
P(x)

보다 구체적으로 시도하려면 의 경우를 고려한 다음 Wikipedia 에 따르면 엔트로피는XGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

그리고 이제 우리는 연속 분포 (감마 분포)에 대한 엔트로피를 계산했습니다. 따라서 이제 αβ가 주어진 식 평가하면 그 양이 실제로 무엇을 말해줍니까? H(X)αβ


5
(+1)이 인용문은 참으로 불행한 구절을 가리 킵니다. 엔트로피의 수학적 정의를 설명하고 해석하는 것은 힘들고 불투명 한 방법으로 시도되고 있습니다. 그 정의는 . 로그 의 기대치 ( f ( X ) ) 로 볼 수 있습니다. 여기서 f 는 랜덤 변수 X 의 pdf입니다 . 로그 를 특성화하려고합니다 ( f ( x ) )f(x)log(f(x))dxlog(f(X))fXlog(f(x))은 "정보의 양"으로 번호와 연관된 . x
whuber

5
섬세하지만 중요한 기술적 문제가 있기 때문에 물어볼 가치가 있습니다. 엔트로피의 연속 버전은 이산 버전 (정보 측면에서 자연스럽고 직관적 인 해석이있는)과 동일한 속성을 즐기지 않습니다. @Tim AFAIK, Mathematics의 스레드 는 별개의 경우 만 처리합니다 .
whuber

1
생각 @RustyStatistician 결과의 X 놀라운 것은 얼마나 말하고있다. 그런 다음 예상되는 놀라움을 계산합니다. log(f(x))
Adrian

3
@ whuber 참조 기술 문제를 다시 살펴보면 관심 있을 수 있습니다.
Sean Easter

3
경우에 당신은 교칙에 관심이 : 엔트로피 인 기반으로 의사 메트릭, 각각의 측정에 이벤트 사이의 거리를 설명 참조하는 데 사용되는 쿨백 - 라이 블러 발산라는 projecteuclid.org/euclid.aoms/1177729694을 (원본에 대한 Kullback and Leibler의 논문. 이 개념은 AIC 및 BIC와 같은 모델 선택 기준에도 다시 나타납니다.
Jeremias K

답변:


31

엔트로피는 시스템에 얼마나 많은 불확실성이 있는지 알려줍니다. 고양이를 찾고 있다고 가정 해 봅시다. 집과 이웃 사이에 있으며 1 마일 거리에 있습니다. 당신의 아이들은 고양이가 집에서 거리 에있을 확률이 베타 분포 f ( x ; 2 , 2 )에 의해 가장 잘 묘사 된다고 말합니다 . 고양이는 0과 1 사이의 어느 곳이 될 수 있지만 가능성이 중간, 즉에있을 그래서 X 해요 X = 1 / 2 .x f(x;2,2)xmax=1/2

enter image description here

베타 분포를 방정식에 꽂으면 됩니다.H=0.125

다음으로 아내에게 물어 보면 고양이에 대한 지식을 설명하는 가장 좋은 분포는 균일 한 분포라고합니다. 엔트로피 방정식에 연결하면 됩니다.H=0

유니폼 배포판과 베타 배포판 모두 고양이가 집에서 0 마일에서 1 마일 사이에있을 수 있지만, 아내가 고양이가 숨어있는 곳에서 실마리가없고, 아이들이 어떤 생각을 가지고 있기 때문에 유니폼에 더 많은 불확실성 이 있습니다. 중간에있을 가능성이 높습니다. 이것이 베타의 엔트로피가 유니폼의 엔트로피보다 낮은 이유입니다.

enter image description here

그의 베타 분포로, 그래서 당신은 아마 당신의 이웃은 고양이가 어느 집의 근처로 좋아하는 당신을 알려줍니다, 다른 배포판을 시도 할 수 있습니다 . 그것의 H는 당신이 고양이를 찾을 수있는 위치에 대한 몇 가지 아이디어를 얻을 수 있기 때문에, 다시 일정보다 낮아야합니다. 이웃의 정보 엔트로피가 자녀의 엔트로피보다 높거나 낮은 지 추측하십니까? 나는이 문제에 대해 언젠가 아이들에게 내기를 걸었다.α=β=1/2H

enter image description here

최신 정보:

Δp

pi=pΔp
pj=p+Δp

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0
This means that any disturbance from the uniform distribution reduces the entropy (uncertainty). To show the same in continuous case, I'd have to use calculus of variations or something along this line, but you'll get the same kind of result, in principle.

UPDATE 2: The mean of n균일 랜덤 변수는 랜덤 변수 자체이며 Bates 분포에서 온 것 입니다. 에서 CLT 우리가 알고있는이 새로운 확률 변수의 분산 정신과로. 따라서 위치의 불확실성이 증가함에 따라 감소해야합니다: 우리는 고양이가 중간에 있다는 것을 점점 더 확신합니다. 다음 플롯과 MATLAB 코드는 엔트로피가 0에서 어떻게 감소하는지 보여줍니다.=1 (균일 분포) =13. 여기서 distributions31 라이브러리를 사용 하고 있습니다.

enter image description here

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) I'll wait to see others interpretations but I really like this one. So it seems like to be able to make use of entropy as a measure of certainty you need to compare it against other distributions? I.e., the number by itself doesn't tell you much?
RustyStatistician

1
@RustyStatistician, I wouldn't say its absolute value is totally meaningless., but yes, it's most useful when used to compare the states of the system. The easy way to internalize entropy is to think of it as measure of uncertainty
Aksakal

Problem with this answer is that the term "uncertainty" is left undefined.
kjetil b halvorsen

1
the term is left uncertain
Aksakal

This is very nice.
Astrid

1

I'd like to add a straightforward answer to this question:

what does that quantity actually tell me?

It's intuitive to illustrate that in a discrete scenario. Suppose that you toss a heavily biased coin, saying the probability of seeing a head on each flip is 0.99. Every actual flip tells you very little information because you almost already know that it will be head. But when it comes to a fairer coin, it't harder for you to have any idear what to expect, then every flip tells you more information than any more biased coin. The quantity of information obtained by observing a single toss is equated with log1p(x).

What the quantity of the entropy tells us is the information every actual flipping on (weighted) average can convey: Elog1p(x)=p(x)log1p(x). The fairer the coin the larger the entropy, and a completely fair coin will be maximally informative.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.