데이터 압축 알고리즘과 데이터 압축의 이론적 한계에 대해 읽었습니다. 최근에 "Combinatorial Entropy Encoding"이라는 압축 방법이 발생했습니다.이 방법의 주요 아이디어는 파일에 표시된 문자, 해당 빈도 및 파일이 나타내는 이러한 문자 순열의 색인으로 파일을 인코딩하는 것입니다.
이 문서는이 방법을 설명하는 데 도움이 될 수 있습니다.
https://arxiv.org/pdf/1703.08127
http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf
https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019
그러나 첫 번째 문서에서는이 방법을 사용하여 일부 텍스트를 Shannon 제한보다 작게 압축 할 수 있음을 읽었습니다 (문자의 빈도를 저장하는 데 필요한 공간과 메타를 저장하는 데 필요한 공간은 고려하지 않았습니다) 파일의 데이터). 나는 그것에 대해 생각 했고이 방법이 매우 작은 파일에는 효과적이지 않지만 다른 한편으로는 큰 파일에서는 잘 작동한다는 것을 알았습니다. 실제로 나는이 알고리즘이나 Shannon 제한을 완전히 이해하지 못합니다. 각 문자의 확률에 확률의 역수의 를 곱한 값의 합이라는 것을 알고 있습니다 .
그래서 몇 가지 질문이 있습니다.
이 압축 방법은 실제로 파일을 Shannon 제한보다 작게 압축합니까?
파일을 Shannon 제한보다 작게 압축하는 압축 알고리즘이 있습니까? (이 질문에 대한 대답은 '아니요'인 경우)?
파일을 Shannon 제한보다 작게 압축하는 압축 방법이 존재할 수 있습니까?
조합 인코딩이 실제로 Shannon 제한을 초과하여 파일을 압축하는 경우 원하는 파일 크기에 도달 할 때까지 파일을 반복해서 압축 할 수 없습니까?