Shannon의 엔트로피 는 각 결과에 대한 확률의 로그에 곱한 각 결과의 확률의 합의 음수입니다. 이 방정식에서 대수는 어떤 목적으로 사용됩니까?
직관적이고 시각적 인 답변 (심층적 인 수학 답변과 반대)에는 보너스 포인트가 제공됩니다!
Shannon의 엔트로피 는 각 결과에 대한 확률의 로그에 곱한 각 결과의 확률의 합의 음수입니다. 이 방정식에서 대수는 어떤 목적으로 사용됩니까?
직관적이고 시각적 인 답변 (심층적 인 수학 답변과 반대)에는 보너스 포인트가 제공됩니다!
답변:
샤논 엔트로피는 일련의 관계를 만족시키는 양이다.
간단히 말해서, 로그는 시스템 크기 및 "정보와 같이 동작"에 따라 선형으로 성장하는 것입니다.
첫 번째 동전 던지기 엔트로피 것을 의미 시간은 회 동전 던지기 엔트로피 :
확률과 헤드 - 두 개의 서로 다른 동전 (아마도 불공정 던지기 때 어떻게 작동하는지 아니면 그냥 볼 수 Q의 J ( 로그 ( P는 내가 ) + 로그 ( Q 과 꼬리 최초의 동전에 대한, 그리고 과 번째 용)
그러나 Rényi 엔트로피 는이 속성을 가지고 있습니다 (실제 엔트로피가 매개 변수화되어 α → 1의 Shannon 엔트로피가됩니다) ).
그러나 여기에 두 번째 속성이 있습니다. Shannon 엔트로피는 정보와 관련되어 있기 때문에 특별합니다. 직관적 인 느낌을 얻으려면
우리는 정보를 호출 할 수 있습니다 . 왜? 모든 사건이 확률 발생하면 사건 이 있음을 의미 합니다. 어떤 이벤트가 발생했는지 알려면 log ( 1 / p ) 를 사용해야합니다. 비트 (각 비트는 구별 할 수있는 이벤트 수의 두 배).
"모든 사건이 같은 확률을 가지면 정보의 척도로 를 사용하는 것이 합리적 입니다. 그러나 그렇지 않은 경우 왜 정보를 평균화하는 것이 합리적입니까?" 그리고 그것은 자연스러운 관심사입니다.
그러나 Shannon의 소스 코딩 정리에 따르면 길이 n 의 확률 을 갖는 상관되지 않은 문자가 포함 된 문자열은 (평균적으로) n H 보다 짧은 이진 문자열로 압축 될 수 없다고합니다 . 실제로 허프만 코딩 을 사용하여 문자열을 압축하고 n H에 매우 가까이 갈 수 있습니다.
또한보십시오:
이것은 다른 답변과 동일하지만 설명하는 가장 좋은 방법은 Shannon이 자신의 논문에서 무엇을 말했는지를 보는 것입니다.
로그 측정은 여러 가지 이유로 더 편리합니다.
- 실제로 더 유용합니다. 시간, 대역폭, 계전기 수 등과 같은 공학적 중요도의 매개 변수는 가능한 수의 로그에 따라 선형 적으로 변하는 경향이 있습니다. 예를 들어, 하나의 릴레이를 그룹에 추가하면 가능한 릴레이 상태 수가 두 배가됩니다. 이 숫자의 밑이 2 인 로그에 1을 더합니다. 시간을 두 배로 늘리면 가능한 메시지 수가 대략 제곱되거나 로그 등이 두 배가됩니다.
- 적절한 척도에 대한 우리의 직관적 인 느낌에 더 가깝습니다. 공통 표준과의 선형 비교를 통해 직관적으로 엔티티를 측정하기 때문에 이는 (1)과 밀접한 관련이 있습니다. 예를 들어, 두 개의 천공 카드는 정보 저장 용 용량의 두 배 용량과 정보 전송 용 용량의 두 배 용량을 가져야한다고 생각합니다.
- 수학적으로 더 적합합니다. 많은 제한 작업은 대수의 관점에서 간단하지만 가능한 수의 관점에서 서투른 재구성이 필요합니다.
출처 : Shannon, 수리의 수학 이론 (1948) [ pdf ].
Shannon 엔트로피는 통계 역학의 Gibbs 엔트로피와 일치하며 Gibbs 엔트로피에서 로그가 발생하는 이유에 대한 설명도 있습니다. 통계 역학에서, 엔트로피 측정 가능한 상태의 수 있어야하는데 시스템이 발견 될 수있다. 이유 로그인 Ω이 보다 더 Ω가 있기 때문이다 Ω은 일반적으로 인수의 매우 빠른 성장 기능이기 때문에 유용하게 테일러 전개에 의해 근사 할 수없는 반면, 로그 Ω이 될 수 있습니다. (이것이 통나무를 가져 오기위한 원래 동기인지는 모르겠지만 많은 물리학 책 에서이 방법으로 설명됩니다.)
이것을 보는 또 다른 방법은 알고리즘 관점에서입니다. 숫자 를 추측 할 것이라고 생각 하십시오. 유일하게 가지고있는 정보는이 숫자가 구간에 있다는 것입니다.. 이 상황에서 숫자를 추측하기위한 최적의 알고리즘은 간단한이진 검색알고리즘으로 x 를 순서대로 O ( log 2 N )로 찾습니다. 이 공식은 x가 무엇인지 찾기 위해 얼마나 많은 질문을해야하는지 직관적으로 말합니다. 예를 들어, N = 8 인 경우 unkown x 를 찾기 위해 최대 3 개의 질문을해야합니다..
확률 적 관점에서 x 를 선언하면 범위의 임의의 값이 될 확률이 동일하다고 , 그것은 수단 P ( X ) = 1 / N 대 1 ≤ X ≤ N를 . 클로드 섀넌 (Claude Shannon)은 결과 x 의 정보 내용 이 다음과 같이 정의 된다는 것을 멋지게 보여 주었다 .
로그에서 밑이 2 인 이유는 여기서 정보를 비트 단위로 측정하기 때문 입니다. 당신은 또한 정보를 nats로 측정하는 자연 로그를 가정 할 수 있습니다 . 예로서, outcom의 정보 내용 인 H ( 4 ) = 3 . 이 값은 이진 검색 알고리즘의 단계 수 (또는 알고리즘의 IF 문 수)와 정확하게 동일합니다. 따라서 x 를 찾는 데 필요한 질문 수 는 4 와 같 으며 결과 x = 4 의 정보 내용과 정확히 같습니다 .
또한 가능한 결과에 대한 이진 검색 알고리즘의 성능을 분석 할 수 있습니다. 이를 수행하는 한 가지 방법 은 x 값에 대해 예상되는 질문 수 를 찾는 것 입니다. 위에서 논의한 것처럼 x 값을 추측하는 데 필요한 질문의 수 는 h ( x ) 입니다. 따라서 모든 x 에 대해 예상되는 질문 수는 다음과 같습니다.
예상되는 질문 수 는 AS 단지 동일엔트로피앙상블 H ( X ) 즉, 엔트로피. 따라서 엔트로피 H ( X ) 는 이진 검색 알고리즘의 계산 복잡성 인 결과를 추측하기 위해 요청해야하는 예상 (또는 평균) 수를 정량화한다고 결론 지을 수 있습니다.
목적의 Shannon의 엔트로피는이다 나타나는 로그 ( P의 난 ) 는 IS 전용 속성의 기본적인 기능을 만족하는 엔트로피 함수 H ( P 1 , 구현하도록 유지된다.
Shannon은이 결과에 대한 수학적 증거를 제공하여 철저히 채택하여 널리 받아 들였습니다. 엔트로피 방정식에서 대수의 목적과 중요성은 가정 및 증명 내에 자체 포함됩니다.
이것은 이해하기 쉽지 않지만 궁극적으로 로그가 나타나는 이유입니다.
다른 곳에 나열된 것 외에도 다음 참조가 유용하다는 것을 알았습니다.
이는 아직 보지 못한 데이터의 모든 모호성을 완전히 해결하기 위해 답변해야하는 완벽한 질문의 평균 총 수를 나타냅니다 . 가능한 대답이 완벽한 질문은 대답 할 때 가능성의 공간이 배입니다.
내가 면의 공정한 주사위를 굴려서 그 결과를 예측했다고 가정 해 봅시다 . 가능성의 공간은 6 입니다. 이 바이너리와 같은 질문을 할 수 있습니다 "결과가 1 입니까?" (답은 예 또는 아니오입니다, 즉 n = 2 ) 내 대답은 "nopies!"일 수 있습니다. 그런 다음 가능성의 공간은 단지 1 입니다. 따라서이 질문은 좋은 질문이 아닙니다.
또는이 우수한 이진 질문 " 보다 큽니까?" 와 같은 더 나은 질문을 할 수 있으며 제 대답은 "yyppies!"입니다. 붐, 가능성의 공간이 절반으로 줄어 듭니다! 즉 6 / 2 = 3이 있습니다. 명의 후보자가 남아 있습니다 (원래 6 명 중). 그래 그래 친구.
이제 가능성의 공간이 1에 불과할 때까지 사건에 도달 할 때까지 계속해서 이러한 좋은 질문을 더 많이 요구한다고 가정하자. 남아있는 모호성이 (당신이 답을 알고)가없는 의하여 - 정의 -로 가능성을.
이렇게하자 :
당신은 결과가 수 있어야한다는 결론 , 당신은 단지 요청에 필요한 3 개 진 질문. 즉 c e i l ( log 2 ( 6 ) ) = c e i l ( 2.58 ) = 3
분명히, 이진 질문의 수는 항상 자연수입니다. 왜 Shannon의 엔트로피가 c e i l을 사용하지 않습니까? 함수를 않습니까? 실제로 질문해야 할 좋은 질문 의 평균 수를 내뱉기 때문 입니다.
이 실험을 반복하면 (파이썬 코드 작성) 평균적으로 2.58 을 요청해야한다는 것을 알 수 있습니다. 완벽한 이진 질문을 있습니다.
물론 이진 질문을하면 로그의 기본을 설정합니다. 그래서 여기에 우리의 질문에 이진 있었기 때문에. 예상 질문을 요구하는 경우에 n은 여러 가지 답변을, 당신은에 기본으로 설정합니다 N 대신 2 즉, 로그 N을 ( . . . ) .
import random
total_questions = 0
TOTAL_ROUNDS = 10000
for i in range(0,TOTAL_ROUNDS):
outcome = random.randrange(1,7)
total_questions += 1
if outcome > 3.5:
total_questions += 1
if outcome >= 5:
total_questions += 1
if outcome == 5:
pass
else:
# must be 6! no need to ask
pass
else:
# must be 4! no need to ask
pass
else:
total_questions += 1
if outcome >= 2:
total_questions += 1
if outcome == 2:
pass
else:
# must be 3! no need to ask
pass
else:
# must be 1! no need to ask
pass
print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))
결과 :
total questions: 26634
average questions per outcome: 2.6634
홀리 몰리 친구 .
뭐가 문제 야? 그것은 거의 가깝지만 내가 바라는 것처럼 실제로 가깝지는 않습니다. 파이썬의 PRNG가 느린 농담을 말하려고합니까? 아니면 섀넌이 잘못 되었습니까? 아니면 이해가 잘못 되었습니까? 어느 쪽이든 HELP. SOS는 이미 친구입니다.
이 질문은 2 년 전에 제기되었으며 이미 많은 훌륭한 답변이 있었지만 내 자신을 많이 도와주는 내 것을 추가하고 싶습니다.
질문은 ~이야
이 방정식에서 대수는 어떤 목적으로 사용됩니까?
대수 (보통 2를 기준으로 함)는 Kraft의 불평등 때문입니다 .
.
.
이 백서의 코드 트리와 Kraft의 불평등 에는 직관적 인 일러스트레이션과 시각적 답변 (필요한 경우,보다 구체적으로 Kraft의 불평등에 대한)이 설명되어 있습니다.
이미 답을 받아들이지 않은 것을 바탕으로, 당신이 찾고있는 것은 Shannon이 그의 공식에 로그를 사용한 이유 때문입니다. 다시 말해서, 그것의 철학.
면책 조항 : 나는 당신 과 같은 질문을하기 때문에 여기 일주일 동안이 분야에 왔습니다 . 이것에 대해 더 많은 지식이 있다면 알려주십시오.
울라 노 위츠의 가장 중요한 논문 중 하나 인 엔트로피 증가 : 열 사망 또는 영원한 조화를 읽은 후에이 질문이 있습니다 . . 다음은 수식에 (1-p) 대신 -log (p)가있는 이유를 설명하는 단락입니다.
엔트로피의 공식적인 정의를 풀기 전에 존재하지 않는 가장 적절한 척도로 [–log (p)] 대신 (1 – p)를 선택하지 않는 이유는 무엇입니까? 답은 p가있는 결과 제품 (즉, [p–p ^ 2])이 값 p = 0.5에 대해 완전히 대칭이라는 것입니다. 이러한 대칭 조합에 따른 계산은 가역 우주 만 설명 할 수 있습니다. 그러나 볼츠만과 깁스는 돌이킬 수없는 우주를 계량화하려고했다. 일 변량 볼록 로그 함수를 선택함으로써 볼츠만은 비 존재에 대한 편견을주었습니다. 예를 들어, max [–xlog {x}] = {1 / e} ≈ 0.37이므로 불확실성 측정 값이 pi의 낮은 값으로 기울어집니다.
Shannon이 아무런 이유없이 대수를 선택한 것 같습니다. 그는 단지 로그를 사용해야한다는 것을 "제련"합니다. 뉴턴은 왜 그의 공식 F = m * a에서 곱셈 연산을 선택 했습니까?
당시 그는 엔트로피에 대해 전혀 몰랐습니다 .
나의 가장 큰 관심사는 무엇을 부르는가였습니다. 나는 그것을 '정보 (information)'라고 생각했지만 그 단어가 과도하게 사용 되었기 때문에 '불확실성 (uncertainty)'이라고 불렀다. John von Neumann과 논의했을 때 더 나은 아이디어를 얻었습니다. 폰 노이만 (Von Neumann)은 '두 가지 이유로 엔트로피라고 부릅니다. 우선 불확실성 함수는 통계 역학에서 해당 이름으로 사용되었으므로 이미 이름이 있습니다. 두 번째로, 더 중요한 것은 아무도 엔트로피가 실제로 무엇인지 알지 못하기 때문에 토론에서 항상 이점을 얻을 수 있습니다.
그래서 제 대답은 이것에 대한 이유가 없습니다. 그는 마술처럼 효과가 있었기 때문에 이것을 선택했습니다.
로그는 특정 자연 요구 사항을 충족시키는 함수 H의 파생에서 비롯됩니다. pg를 참조하십시오. 3 초 이 소스 중 2 개 :
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
공리가 주어지면 최적화를 수행하면 로그가있는 고유 한 (최대 상수) 함수를 얻을 수 있습니다.
위의 모든 답변은 로그를 해석하지만 소스를 설명하지는 않는다는 점을 제외하고는 정확합니다.
나는 당신의 질문이 그 로그의 "의미"에 대한 것에 대한 것이라고 생각하고 왜 각 구성 요소가 특정 요구 사항에 대한 정의의 일관성을 보여주는 단순한 형식보다는 공식의 전반적인 의미에 기여하는지 생각합니다.
Shannon 엔트로피의 아이디어는 FREQUENCY (예 : 를 통해 메시지 정보를 평가하는 것입니다. ) .
이제부터 GENERALITY가 최종 엔트로피 공식에 미치는 영향에 대해 설명하겠습니다.
이제 앉아서 휴식을 취하고 Shannon의 엔트로피가 얼마나 아름답게 트릭을 수행하는지 살펴보십시오. 일반적인 메시지는 결과적으로 더 빈번하다는 (합리적인) 가정을 기반으로합니다.
예를 들어 평균, 폭우 또는 매우 비가 내리면 비가 내립니다. 따라서 그는 메시지의 빈도에 따라 메시지의 일반성을 인코딩하도록 제안했습니다.
.
이 공식은 다음과 같이 해석 될 수 있습니다. 희귀 메시지는 덜 일반적이기 때문에 더 긴 인코딩을 가지므로 더 많은 비트가 인코딩되고 정보가 덜 필요합니다. 따라서보다 구체적이고 희귀 한 메시지를 갖는 것은 많은 일반 메시지와 빈번한 메시지를 갖는 것보다 엔트로피에 더 크게 기여합니다.
빈번한 메시지는 일반적으로, 그리고 더 많은 정보를 이런 관점에서 (즉,보다 짧은 부호화 낮은 엔트로피를 의미 함)이다.
가장 높은 엔트로피는 희귀하고 구체적인 메시지가 많은 시스템이있을 때입니다. 빈번하고 일반적인 메시지로 가장 낮은 엔트로피. 그 사이에, 우리는 희귀 한 메시지와 일반적인 메시지 또는 빈번하지만 특정한 메시지를 가질 수있는 다양한 엔트로피 등가 시스템을 가지고 있습니다.
나는 당신에게 보편적 인 "직관적 인"대답을 줄 수 있다고 생각하지 않습니다. 물리학 자와 같은 일부 사람들에게는 직관적 인 답변을 드리겠습니다. 대수는 시스템의 평균 에너지를 얻기 위해 존재합니다. 자세한 내용은 다음과 같습니다.
Shannon 은 통계적 역학 의 개념을 수정했기 때문에 “ 엔트로피 ” 라는 단어를 사용했습니다 . 통계 역학에는 Boltzmann의 이름을 딴 정액 분포가 있습니다. 흥미롭게도, 이제 머신 러닝에서 중요한 배포판 입니다!
Boltzmann 분포는 로 쓸 수 있습니다
이것은 당신에게 충분히 직관적입니까? 그것은 나를위한 것이지만, 나는 전생에 이론 물리학 자였습니다. 또한 Boltzmann과 Clausius의 온도 및 작동과 같은 오래된 열역학 개념까지 연결하여 더 깊은 직관력을 얻을 수 있습니다 .