확률 분포 대한 허프만 코드 는 최소 가중 평균 코드 워드 길이 갖는 접두사 코드이며 , 여기서 는 번째 코드 워드 의 길이입니다 . 허프만 코드의 심볼 당 평균 길이는 와 이며, 여기서 는 확률 분포의 Shannon 엔트로피입니다.
평균 길이가 Shannon 엔트로피를 거의 1만큼 초과하는 정식 나쁜 예는 과 같은 확률 분포 이며, 엔트로피가 거의 0이고 평균 코드 워드 길이는 1입니다. 엔트로피와 거의 의 코드 워드 길이 사이 .
그러나 확률 분포에서 가장 큰 확률에 대한 경계가있는 경우 어떻게됩니까? 예를 들어 모든 확률이 1 보다 작다고 가정합니다. . 이 경우에 찾을 수있는 가장 큰 간격은와 같은 확률 분포에 대한 것입니다. 엔트로피는 1보다 약간 더 길고 평균 코드 워드 길이는 1.5보다 약간 작습니다.. 이것이 최선입니까? 이 경우 엄격하게 1보다 작은 간격에 상한을 줄 수 있습니까?
이제 모든 확률이 매우 작은 경우를 생각해 봅시다. 각각 확률이 1 / M 인 문자에 대한 확률 분포를 선택한다고 가정하십시오 . 이 경우 M ≈ 2 k ln 2 를 선택하면 가장 큰 간격이 발생합니다 . 여기에서 약 1 + ln ln 2 − ln 2 의 간격이 생깁니다.
이 질문은이 TCS Stackexchange 질문에서 영감을 얻었습니다 .