Shannon의 엔트로피에서 로그의 역할은 무엇입니까?

72

Shannon의 엔트로피 는 각 결과에 대한 확률의 로그에 곱한 각 결과의 확률의 합의 음수입니다. 이 방정식에서 대수는 어떤 목적으로 사용됩니까?

직관적이고 시각적 인 답변 (심층적 인 수학 답변과 반대)에는 보너스 포인트가 제공됩니다!

entropy intuition sequence-analysis

— 히 스텔 하임
소스

11

귀하 (또는 다른 독자)는 다음을 즐길 수 있습니다 : A. Renyi (1961), Entropy and Information의 측정 , Proc. 수학 통계 및 확률에 관한 제 4 회 버클리 심포지엄 , vol. 1, 547-561.

— 추기경

당신의 반응을 바탕으로 , Shannon 이 왜 그의 공식에 로그를 사용 했는지를 알 수 있을까요?

— Ooker

@Ooker : 그것을 표현하는 한 가지 방법입니다. "왜"그것을 넣었습니까? 이 기능 또는 역할 "무엇"것입니다 "그것을 달성 하는가?"무엇 "이 도움이 어떻게 나에게,이 모두 같은 동네에 ...?" "?

— histelheim

내 대답을 여기에서보십시오 : stats.stackexchange.com/questions/66186/…

— kjetil b halvorsen

내 대답을 참조하십시오, 나는 로그의 의미를 진정으로 유일한 통계 역학에서 섀넌 엔트로피의 뿌리를 검사하여 이해 될 수 있다고 생각

— Aksakal

51

샤논 엔트로피는 일련의 관계를 만족시키는 양이다.

간단히 말해서, 로그는 시스템 크기 및 "정보와 같이 동작"에 따라 선형으로 성장하는 것입니다.

첫 번째 동전 던지기 엔트로피 것을 의미 $n$ 시간은 $n$ 회 동전 던지기 엔트로피 :

- \sum_{i = 1}^{2^{n}} \frac{1}{2^{n}} \log (\frac{1}{2^{n}}) = - \sum_{i = 1}^{2^{n}} \frac{1}{2^{n}} n \log (\frac{1}{2}) = n (- \sum_{i = 1}^{2} \frac{1}{2} \log (\frac{1}{2})) = n .

$- \sum_{i=1}^{2^n} \frac{1}{2^n} \log\left(\tfrac{1}{2^n}\right) = - \sum_{i=1}^{2^n} \frac{1}{2^n} n \log\left(\tfrac{1}{2}\right) = n \left( - \sum_{i=1}^{2} \frac{1}{2} \log\left(\tfrac{1}{2}\right) \right) = n.$

확률과 헤드 - 두 개의 서로 다른 동전 (아마도 불공정 던지기 때 어떻게 작동하는지 아니면 그냥 볼 수 $p_1$ 과 꼬리 $p_2$ 최초의 동전에 대한, 그리고 $q_1$ 과 $q_2$ 번째 용)

- \sum_{나는 = 1}^{2} \sum_{제이 = 1}^{2} 피_{나는} 큐_{제이} 로그 (피_{나는} 큐_{제이}) = - \sum_{나는 = 1}^{2} \sum_{제이 = 1}^{2} 피_{나는} 큐_{제이} (로그 (피_{나는}) + 로그 (큐_{제이}))

$-\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i q_j) = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \left( \log(p_i) + \log(q_j) \right)$

= - \sum_{나는 = 1}^{2} \sum_{제이 = 1}^{2} 피_{나는} 큐_{제이} 로그 (피_{나는}) - \sum_{나는 = 1}^{2} \sum_{제이 = 1}^{2} 피_{나는} 큐_{제이} 로그 (큐_{제이}) = - \sum_{나는 = 1}^{2} 피_{나는} 로그 (피_{나는}) - \sum_{제이 = 1}^{2} 큐_{제이} 로그 (큐_{제이})

$= -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i) -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(q_j) = -\sum_{i=1}^2 p_i \log(p_i) - \sum_{j=1}^2 q_j \log(q_j)$ 그래서로그의 속성 (제품의 로그는 로그의 합임)이 중요합니다.

그러나 Rényi 엔트로피 는이 속성을 가지고 있습니다 (실제 $\alpha$ 엔트로피가 매개 변수화되어 Shannon 엔트로피가됩니다) $\alpha \to 1$ ).

그러나 여기에 두 번째 속성이 있습니다. Shannon 엔트로피는 정보와 관련되어 있기 때문에 특별합니다. 직관적 인 느낌을 얻으려면

H = \sum_{나는} 피_{나는} 로그 (\frac{1}{피_{나는}})

$H = \sum_i p_i \log \left(\tfrac{1}{p_i} \right)$ 를 평균

\log (1 / p)

$\log(1/p)$ 냅니다.

우리는 $\log(1/p)$ 정보를 호출 할 수 있습니다 . 왜? 모든 사건이 확률 $p$ 발생하면 $1/p$ 사건 이 있음을 의미 합니다. 어떤 이벤트가 발생했는지 알려면 를 사용해야합니다. $\log(1/p)$ 비트 (각 비트는 구별 할 수있는 이벤트 수의 두 배).

"모든 사건이 같은 확률을 가지면 정보의 척도로 $\log(1/p)$ 를 사용하는 것이 합리적 입니다. 그러나 그렇지 않은 경우 왜 정보를 평균화하는 것이 합리적입니까?" 그리고 그것은 자연스러운 관심사입니다.

그러나 Shannon의 소스 코딩 정리에 따르면 길이 의 확률 $\{p_i\}_i$ 을 갖는 상관되지 않은 문자가 포함 된 문자열은 (평균적으로) 보다 짧은 이진 문자열로 압축 될 수 없다고합니다 . 실제로 허프만 코딩 을 사용하여 문자열을 압축하고 매우 가까이 갈 수 있습니다. $n$ $n H$ $n H$

또한보십시오:

좋은 소개는 Cosma Shalizi의 정보 이론 항목입니다
엔트로피 란 무엇입니까? -MathOverflow
GZIP 형식 해부

— 피오트르 미달
소스

11

이 답변에는 많은 세부 사항이 있지만 평신도의 관점에서 여전히 문제가 있습니다. 대수의 역할은 무엇입니까? 로그없이 엔트로피를 계산할 수없는 이유는 무엇입니까?

— histelheim

6

@histelheim "로그없이"는 무슨 뜻입니까?

는 단지 하나입니다. 당신이없는 다양성의 또 다른 측정을 원하는 경우

에서 볼 다양성 지수 - 예를 들면 소위 역 심슨 지수

선택의 효과적인 수 (평균 확률 이상을) 알려줍니다,이 지니 - 심슨 지수

\sum_{i} p_{i}

$\sum_i p_i$

\log

$\log$

1 / \sum_{i} p_{i}^{2}

$1/\sum_i p_i^2$

1 - \sum_{i} p_{i}^{2}

$1-\sum_i p_i^2$ 항상 0과 1 사이입니다. 그리고 Shannon 엔트로피의 미묘한 정보 관련 속성을 신경 쓰지 않는다면 그것들을 사용할 수 있습니다 (물론 무게가 낮고 확률이 다릅니다).

— Piotr Migdal

10

나는 당신의 마지막 주석 Histelheim에 당황합니다. "로그없이 엔트로피"는 무엇을 의미 할 수 있습니까? 그것은 당신이 아직 명확하지 않은 "엔트로피"개념을 가지고있는 것처럼 들리기 때문에 당신이 아직 명확하게 질문을 표현하지 않았다는 것을 암시합니다. 우리가 추측하지 마십시오. 독자가 원하는 답변을 제공 할 수 있도록 질문을 편집하십시오.

— whuber

1

@ Piotr Migdal- "로그는 시스템 크기에 따라 선형 적으로 성장하고"정보처럼 행동 "하는 것입니다. -이것은 로그의 역할을 이해하는 데 중요하지만, 그것이 무엇을 의미하는지는 확실하지 않습니다.

— histelheim

1

@ Piotr Migdal- "로그 (1 / p) 정보를 호출 할 수 있습니다. 왜 그렇습니까?"에 대한 설명 이해가되는 것 같습니다. 대수는 본질적으로 우리를 다양성 지수에서 정보 지수로 이동시키는 것인데, 이벤트를 구별하는 데 필요한 비트 수를 측정합니다.

— histelheim

25

이것은 다른 답변과 동일하지만 설명하는 가장 좋은 방법은 Shannon이 자신의 논문에서 무엇을 말했는지를 보는 것입니다.

로그 측정은 여러 가지 이유로 더 편리합니다.

실제로 더 유용합니다. 시간, 대역폭, 계전기 수 등과 같은 공학적 중요도의 매개 변수는 가능한 수의 로그에 따라 선형 적으로 변하는 경향이 있습니다. 예를 들어, 하나의 릴레이를 그룹에 추가하면 가능한 릴레이 상태 수가 두 배가됩니다. 이 숫자의 밑이 2 인 로그에 1을 더합니다. 시간을 두 배로 늘리면 가능한 메시지 수가 대략 제곱되거나 로그 등이 두 배가됩니다.

적절한 척도에 대한 우리의 직관적 인 느낌에 더 가깝습니다. 공통 표준과의 선형 비교를 통해 직관적으로 엔티티를 측정하기 때문에 이는 (1)과 밀접한 관련이 있습니다. 예를 들어, 두 개의 천공 카드는 정보 저장 용 용량의 두 배 용량과 정보 전송 용 용량의 두 배 용량을 가져야한다고 생각합니다.

수학적으로 더 적합합니다. 많은 제한 작업은 대수의 관점에서 간단하지만 가능한 수의 관점에서 서투른 재구성이 필요합니다.

출처 : Shannon, 수리의 수학 이론 (1948) [ pdf ].

Shannon 엔트로피는 통계 역학의 Gibbs 엔트로피와 일치하며 Gibbs 엔트로피에서 로그가 발생하는 이유에 대한 설명도 있습니다. 통계 역학에서, 엔트로피 측정 가능한 상태의 수 있어야하는데 시스템이 발견 될 수있다. 이유 보다 더 있기 때문이다 일반적으로 인수의 매우 빠른 성장 기능이기 때문에 유용하게 테일러 전개에 의해 근사 할 수없는 반면, 될 수 있습니다. (이것이 통나무를 가져 오기위한 원래 동기인지는 모르겠지만 많은 물리학 책 에서이 방법으로 설명됩니다.) $\Omega$ $\log \Omega$ $\Omega$ $\Omega$ $\log \Omega$

— under 치
소스

이 답변은 가장 집중적이지만 유익한 것 같습니다.

— 밝은 별

1

이것이 엔트로피 계산에 로그가 나타나는 이유는 아닙니다. 이것이보고 된 정보가 그대로보고되는 이유입니다. 대체 수량이 있습니다 : 로그없이 정보를보고하는 "난도". 그의 논문의이 부분에서, Shannon은 비트 / nats / hartleys를 선호하고 당혹함에 반대한다고 주장하고 있습니다.

— Neil G

15

이것을 보는 또 다른 방법은 알고리즘 관점에서입니다. 숫자 를 추측 할 것이라고 생각 하십시오. 유일하게 가지고있는 정보는이 숫자가 구간에 있다는 것입니다. $x$ . 이 상황에서 숫자를 추측하기위한 최적의 알고리즘은 간단한이진 검색알고리즘으로 를 순서대로 찾습니다. 이 공식은 무엇인지 찾기 위해 얼마나 많은 질문을해야하는지 직관적으로 말합니다. 예를 들어, 인 경우 unkown 를 찾기 위해 최대 3 개의 질문을해야합니다. $1 \leq x \leq N$ $x$ $O(\log_2N)$ $x$ $N=8$ $x$ .

확률 적 관점에서 를 선언하면 $x$ 범위의 임의의 값이 될 확률이 동일하다고 , 그것은 수단 대 . 클로드 섀넌 (Claude Shannon)은 결과 의 정보 내용 이 다음과 같이 정의 된다는 것을 멋지게 보여 주었다 . $1 \leq x \leq N$ $p(x) = 1/N$ $1 \leq x \leq N$ $x$

h (엑스) = {로그}_{2} \frac{1}{피 (엑스)}

$\begin{equation} h(x) = \log_2 \frac{1}{p(x)} \end{equation}$

로그에서 밑이 2 인 이유는 여기서 정보를 비트 단위로 측정하기 때문 입니다. 당신은 또한 정보를 nats로 측정하는 자연 로그를 가정 할 수 있습니다 . 예로서, outcom의 정보 내용 인 . 이 값은 이진 검색 알고리즘의 단계 수 (또는 알고리즘의 IF 문 수)와 정확하게 동일합니다. 따라서 를 찾는 데 필요한 질문 수 는 와 같 으며 결과 의 정보 내용과 정확히 같습니다 . $x=4$ $h(4) = 3$ $x$ $4$ $x=4$

또한 가능한 결과에 대한 이진 검색 알고리즘의 성능을 분석 할 수 있습니다. 이를 수행하는 한 가지 방법 은 값에 대해 예상되는 질문 수 를 찾는 것 입니다. 위에서 논의한 것처럼 값을 추측하는 데 필요한 질문의 수 는 입니다. 따라서 모든 에 대해 예상되는 질문 수는 다음과 같습니다. $x$ $x$ $h(x)$ $x$

⟨ h (엑스) ⟩ = \sum_{1 \leq 엑스 \leq 엔} 피 (엑스) h (엑스)

$\begin{equation} \langle h(x) \rangle = \sum_{1 \leq x \leq N} p(x) h(x) \end{equation}$

예상되는 질문 수 는 AS 단지 동일엔트로피앙상블 즉, 엔트로피. 따라서 엔트로피 는 이진 검색 알고리즘의 계산 복잡성 인 결과를 추측하기 위해 요청해야하는 예상 (또는 평균) 수를 정량화한다고 결론 지을 수 있습니다. $\langle h(x) \rangle$ $H(X)$ $H(X)$

— 옴디
소스

1

+ 이것은 내가 가장 좋아하는 정보 이론 응용 프로그램 중 하나입니다-알고리즘 분석. 배열을 인덱싱 할 때와 같이 결과가 2보다 큰 결정 포인트가있는 경우 해시 코딩 및 O (n) 정렬의 기본 원리입니다.

— Mike Dunlavey

이 주장은 불연속 엔트로피에는 적합하지만 연속 엔트로피로 쉽게 일반화되지는 않습니다.

— Neil G

12

커프 설명은 다음과 같습니다. 같은 크기의 2 권의 책이 1 권의 정보보다 2 배 많은 정보를 가지고 있다고 말할 수 있습니다. (책을 일련의 비트로 간주하십시오.) 특정 결과에 확률 P가 있으면 정보 내용이 1 / P를 작성하는 데 필요한 비트 수에 관한 것이라고 말할 수 있습니다. (예를 들어 P = 1 / 256이면 8 비트입니다.) 엔트로피는 모든 결과에 대한 정보 비트 길이의 평균입니다.

— 마이크 던 라비
소스

5

목적의 Shannon의 엔트로피는이다 나타나는 는 IS 전용 속성의 기본적인 기능을 만족하는 엔트로피 함수 $\log(p_i)$ $\log(p_i)$ , 구현하도록 유지된다. $H(p_1, \ldots ,p_N)$

Shannon은이 결과에 대한 수학적 증거를 제공하여 철저히 채택하여 널리 받아 들였습니다. 엔트로피 방정식에서 대수의 목적과 중요성은 가정 및 증명 내에 자체 포함됩니다.

이것은 이해하기 쉽지 않지만 궁극적으로 로그가 나타나는 이유입니다.

다른 곳에 나열된 것 외에도 다음 참조가 유용하다는 것을 알았습니다.

확률 이론 : ET Jaynes의 과학 논리 . Jaynes는 처음부터 많은 결과를 도출 한 소수의 저자 중 한 명입니다. 11 장을 참조하십시오.
David MacKay의 정보 이론, 추론 및 학습 알고리즘 . Shannon의 소스 코딩 정리에 대한 심층 분석이 포함되어 있습니다. 4 장을 참조하십시오.

— 사용자 119961
소스

4

요약:

이는 아직 보지 못한 데이터의 모든 모호성을 완전히 해결하기 위해 답변해야하는 완벽한 질문의 평균 총 수를 나타냅니다 . 가능한 대답이 완벽한 질문은 대답 할 때 가능성의 공간이 $n$ 배입니다. $n$

예:

내가 면의 공정한 주사위를 굴려서 그 결과를 예측했다고 가정 해 봅시다 . 가능성의 공간은 입니다. 이 바이너리와 같은 질문을 할 수 있습니다 "결과가 입니까?" (답은 예 또는 아니오입니다, 즉 ) 내 대답은 "nopies!"일 수 있습니다. 그런 다음 가능성의 공간은 단지 입니다. 따라서이 질문은 좋은 질문이 아닙니다. $6$ $6$ $1$ $n=2$ $1$

또는이 우수한 이진 질문 " 보다 큽니까?" 와 같은 더 나은 질문을 할 수 있으며 제 대답은 "yyppies!"입니다. 붐, 가능성의 공간이 절반으로 줄어 듭니다! 즉 $3.5$ $6/2=3$ 명의 후보자가 남아 있습니다 (원래 6 명 중). 그래 그래 친구.

이제 가능성의 공간이 불과할 때까지 사건에 도달 할 때까지 계속해서 이러한 좋은 질문을 더 많이 요구한다고 가정하자. $1$ 남아있는 모호성이 (당신이 답을 알고)가없는 의하여 - 정의 -로 가능성을.

이렇게하자 :

가능성. Q : 성과 $6$ $> 3.5$ ? A : 그렇습니다.
가능성 남음. Q : 결과 $6/2=3$ $\ge 5$ 입니까? A : 그렇습니다.
가능성 남음. Q : 결과 $6/2/2=1.5$ $= 6$ 입니까? A : 그렇습니다.

당신은 결과가 수 있어야한다는 결론 , 당신은 단지 요청에 필요한 진 질문. 즉 $6$ $3$ $ceil(\log_2(6)) = ceil(2.58) = 3$

분명히, 이진 질문의 수는 항상 자연수입니다. 왜 Shannon의 엔트로피가 사용하지 않습니까? $ceil$ 함수를 않습니까? 실제로 질문해야 할 좋은 질문 의 평균 수를 내뱉기 때문 입니다.

이 실험을 반복하면 (파이썬 코드 작성) 평균적으로 을 요청해야한다는 것을 알 수 있습니다. $2.58$ 완벽한 이진 질문을 있습니다.

물론 이진 질문을하면 로그의 기본을 설정합니다. 그래서 여기에 우리의 질문에 이진 있었기 때문에. 예상 질문을 요구하는 경우에 여러 가지 답변을, 당신은에 기본으로 설정합니다 대신 즉, . $\log_2(...)$ $n$ $n$ $2$ $\log_n(...)$

시뮬레이션:

import random

total_questions = 0
TOTAL_ROUNDS = 10000

for i in range(0,TOTAL_ROUNDS):
    outcome = random.randrange(1,7)
    total_questions += 1
    if outcome > 3.5:
        total_questions += 1
        if outcome >= 5:
            total_questions += 1
            if outcome == 5:
                pass
            else:
                # must be 6! no need to ask
                pass
        else:
            # must be 4! no need to ask
            pass
    else:
        total_questions += 1
        if outcome >= 2:
            total_questions += 1
            if outcome == 2:
                pass
            else:
                # must be 3! no need to ask
                pass
        else:
            # must be 1! no need to ask
            pass


print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))

결과 :

total questions: 26634
average questions per outcome: 2.6634

홀리 몰리 친구 . $2.6634 \ne \log_2(6) \ne 2.58$

뭐가 문제 야? 그것은 거의 가깝지만 내가 바라는 것처럼 실제로 가깝지는 않습니다. 파이썬의 PRNG가 느린 농담을 말하려고합니까? 아니면 섀넌이 잘못 되었습니까? 아니면 이해가 잘못 되었습니까? 어느 쪽이든 HELP. SOS는 이미 친구입니다.

— 동굴 탐험가
소스

2

6^{5} = 7776

$6^5=7776$

⌈ \log_{2} (6^{5}) ⌉ = 13

$\lceil\log_2(6^5)\rceil=13$

13 / 5 = 2.6

$13/5=2.6$

190537

$190537$

492531

$492531$

492531 / 190537 \approx 2.584962500722

$492531/190537\approx 2.584962500722$

@ whuber이 코드에서 내가하고있는 일이 아닙니까? 나는 10000 주사위를 던지고, 모든 주사위를 요구하는 총 질문 수를 합산합니다. 그런 다음 sum / 10000을 수행하여 2.66을 얻습니다.

— 원시인

1

아니요, 코드에서 전혀 그렇게하지 않습니다! 모든 주사위의 상태를 한 번 에 동시에 얻을 수 있도록 일련의 질문 을해야합니다. 그것은 한 번에 한 다이의 상태를 찾는 데 필요한 평균 질문 수와는 다릅니다.

— whuber

3

$\Omega = \{\omega_1, \dotsc, \omega_n\}$ $p_1, \dotsc, p_n$ $H(p_1, \dotsc, p_n)$

$H$
$H$ $n$ $p_1 = \dots = p_n = \frac1n$
$H$ $\begin{aligned} H (\frac{1}{2}, \frac{1}{6}, \frac{1}{3}) & = H (\frac{1}{2}, \frac{1}{2}) + \frac{1}{2} H (\frac{1}{3}, \frac{2}{3}) . \end{aligned}$ $\begin{align} H\left(\frac12, \frac16, \frac13\right) &= H\left(\frac12, \frac12\right) + \frac12 H\left(\frac13, \frac23\right). \end{align}$

Shannon 은 하는 유일한 임을 증명합니다. $H$

\begin{aligned} H (p_{1}, \dots, p_{n}) & = - \sum_{i = 1}^{n} p_{i} \log_{k} p_{i} \end{aligned}

$\begin{align} H(p_1, \dotsc, p_n) &= -\sum_{i=1}^np_i\log_kp_i \end{align}$

k > 1

$k>1$

k = 2

$k=2$

— 닐 G
소스

3

이 질문은 2 년 전에 제기되었으며 이미 많은 훌륭한 답변이 있었지만 내 자신을 많이 도와주는 내 것을 추가하고 싶습니다.

질문은 ~이야

이 방정식에서 대수는 어떤 목적으로 사용됩니까?

대수 (보통 2를 기준으로 함)는 Kraft의 불평등 때문입니다 .

$\sum_{i=1}^m 2^{-l_i} <= 1$

$l_i$ $L_x$ $P(x)$

$P(x) = 2^{-L(x)}$

$L_{(x)} = -logP(x)$ $P(x)$ $L_{(x)}$ .

$L_{(x)}$ $P(x)$ $-P(x)logP(x)$ .

이 백서의 코드 트리와 Kraft의 불평등 에는 직관적 인 일러스트레이션과 시각적 답변 (필요한 경우,보다 구체적으로 Kraft의 불평등에 대한)이 설명되어 있습니다.

— 레너 장
소스

1

이미 답을 받아들이지 않은 것을 바탕으로, 당신이 찾고있는 것은 Shannon이 그의 공식에 로그를 사용한 이유 때문입니다. 다시 말해서, 그것의 철학.

_{면책 조항 : 나는 당신 과 같은 질문을하기 때문에 여기 일주일 동안이 분야에 왔습니다 . 이것에 대해 더 많은 지식이 있다면 알려주십시오.}

울라 노 위츠의 가장 중요한 논문 중 하나 인 엔트로피 증가 : 열 사망 또는 영원한 조화를 읽은 후에이 질문이 있습니다 . . 다음은 수식에 (1-p) 대신 -log (p)가있는 이유를 설명하는 단락입니다.

엔트로피의 공식적인 정의를 풀기 전에 존재하지 않는 가장 적절한 척도로 [–log (p)] 대신 (1 – p)를 선택하지 않는 이유는 무엇입니까? 답은 p가있는 결과 제품 (즉, [p–p ^ 2])이 값 p = 0.5에 대해 완전히 대칭이라는 것입니다. 이러한 대칭 조합에 따른 계산은 가역 우주 만 설명 할 수 있습니다. 그러나 볼츠만과 깁스는 돌이킬 수없는 우주를 계량화하려고했다. 일 변량 볼록 로그 함수를 선택함으로써 볼츠만은 비 존재에 대한 편견을주었습니다. 예를 들어, max [–xlog {x}] = {1 / e} ≈ 0.37이므로 불확실성 측정 값이 pi의 낮은 값으로 기울어집니다.

Shannon이 아무런 이유없이 대수를 선택한 것 같습니다. 그는 단지 로그를 사용해야한다는 것을 "제련"합니다. 뉴턴은 왜 그의 공식 F = m * a에서 곱셈 연산을 선택 했습니까?

당시 그는 엔트로피에 대해 전혀 몰랐습니다 .

나의 가장 큰 관심사는 무엇을 부르는가였습니다. 나는 그것을 '정보 (information)'라고 생각했지만 그 단어가 과도하게 사용 되었기 때문에 '불확실성 (uncertainty)'이라고 불렀다. John von Neumann과 논의했을 때 더 나은 아이디어를 얻었습니다. 폰 노이만 (Von Neumann)은 '두 가지 이유로 엔트로피라고 부릅니다. 우선 불확실성 함수는 통계 역학에서 해당 이름으로 사용되었으므로 이미 이름이 있습니다. 두 번째로, 더 중요한 것은 아무도 엔트로피가 실제로 무엇인지 알지 못하기 때문에 토론에서 항상 이점을 얻을 수 있습니다.

그래서 제 대답은 이것에 대한 이유가 없습니다. 그는 마술처럼 효과가 있었기 때문에 이것을 선택했습니다.

— 우커
소스

0

엔트로피는 시스템이 가질 수있는 상태의 수를 나타내는 다항식 계수의 기하 평균의 로그로 정의됩니다.

로그 \sqrt[엔]{(\binom{엔}{엔_{1}, \dots, 엔_{케이}})}

$\log \sqrt[N]{N \choose n_1,\ldots,n_k}$

스털링의 계승 근사를 사용한 후 공식에 로그가 나타납니다 ( 이 설명 참조 ).

— 아타 미리
소스

3

OP가 로그가 정의의 일부라는 것을 알고 있습니다. 그들은 왜 거기 있는지 묻습니다 .

— whuber

0

로그는 특정 자연 요구 사항을 충족시키는 함수 H의 파생에서 비롯됩니다. pg를 참조하십시오. 3 초 이 소스 중 2 개 :

http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf

공리가 주어지면 최적화를 수행하면 로그가있는 고유 한 (최대 상수) 함수를 얻을 수 있습니다.

위의 모든 답변은 로그를 해석하지만 소스를 설명하지는 않는다는 점을 제외하고는 정확합니다.

— 스왑 닐 바 티아
소스

0

나는 당신의 질문이 그 로그의 "의미"에 대한 것에 대한 것이라고 생각하고 왜 각 구성 요소가 특정 요구 사항에 대한 정의의 일관성을 보여주는 단순한 형식보다는 공식의 전반적인 의미에 기여하는지 생각합니다.

Shannon 엔트로피의 아이디어는 FREQUENCY (예 : 를 통해 메시지 정보를 평가하는 것입니다. $p(x)$ $-log(p(x))$ ) .

$p(x)$
$-log(p(x))$

$p(x)$ $-log(p(x))$

이제부터 GENERALITY가 최종 엔트로피 공식에 미치는 영향에 대해 설명하겠습니다.

l o g_{2} (x) = n u m b e r_o f_b i t s_t o_e n c o d e_t h e_m e s s a g e s

$log_2(x) = number\_of\_bits\_to\_encode\_the\_messages$

이제 앉아서 휴식을 취하고 Shannon의 엔트로피가 얼마나 아름답게 트릭을 수행하는지 살펴보십시오. 일반적인 메시지는 결과적으로 더 빈번하다는 (합리적인) 가정을 기반으로합니다.

예를 들어 평균, 폭우 또는 매우 비가 내리면 비가 내립니다. 따라서 그는 메시지의 빈도에 따라 메시지의 일반성을 인코딩하도록 제안했습니다.

l o g_{2} N = - l o g_{2} 1 / N = - l o g_{2} P

$log_2 N = -log_2 1/N = -log_2 P$

$N$ $x$ .

이 공식은 다음과 같이 해석 될 수 있습니다. 희귀 메시지는 덜 일반적이기 때문에 더 긴 인코딩을 가지므로 더 많은 비트가 인코딩되고 정보가 덜 필요합니다. 따라서보다 구체적이고 희귀 한 메시지를 갖는 것은 많은 일반 메시지와 빈번한 메시지를 갖는 것보다 엔트로피에 더 크게 기여합니다.

$p(x)$ $-log(p(x))$ 빈번한 메시지는 일반적으로, 그리고 더 많은 정보를 이런 관점에서 (즉,보다 짧은 부호화 낮은 엔트로피를 의미 함)이다.

가장 높은 엔트로피는 희귀하고 구체적인 메시지가 많은 시스템이있을 때입니다. 빈번하고 일반적인 메시지로 가장 낮은 엔트로피. 그 사이에, 우리는 희귀 한 메시지와 일반적인 메시지 또는 빈번하지만 특정한 메시지를 가질 수있는 다양한 엔트로피 등가 시스템을 가지고 있습니다.

— 개버
소스

0

나는 당신에게 보편적 인 "직관적 인"대답을 줄 수 있다고 생각하지 않습니다. 물리학 자와 같은 일부 사람들에게는 직관적 인 답변을 드리겠습니다. 대수는 시스템의 평균 에너지를 얻기 위해 존재합니다. 자세한 내용은 다음과 같습니다.

Shannon 은 통계적 역학 의 개념을 수정했기 때문에 “ 엔트로피 ” 라는 단어를 사용했습니다 . 통계 역학에는 Boltzmann의 이름을 딴 정액 분포가 있습니다. 흥미롭게도, 이제 머신 러닝에서 중요한 배포판 입니다!

Boltzmann 분포는 로 쓸 수 있습니다

피 = {이자형}^{\frac{에이 - 이자형}{비}}

$P=e^{\frac{a-E} b}$

a, b

$a, b$

E

$E$

d V

$dV$

V

$V$

d V = d p d x

$dV=dpdx$

x, p

$x,p$

a, b

$a,b$

\int_{V} P d V = 1

$\int_VPdV=1$

b

$b$ 시스템의 온도에 해당합니다.

$\ln P\sim E$

에스 \equiv - \int_{V} 피 \ln 피 디 V = < 이자형 >

$S\equiv -\int_VP\ln P dV=<E>$ 이것이 Gibbs가 수행 한 작업입니다.

η = - \sum_{i} P_{i} \ln P_{i}

$\eta=-\sum_i P_i\ln P_i$

e^{- P_{i}}

$e^{-P_i}$

이것은 당신에게 충분히 직관적입니까? 그것은 나를위한 것이지만, 나는 전생에 이론 물리학 자였습니다. 또한 Boltzmann과 Clausius의 온도 및 작동과 같은 오래된 열역학 개념까지 연결하여 더 깊은 직관력을 얻을 수 있습니다 .

— 악사 칼
소스