소수를 사용한 데이터 압축

22

필자는 최근 데이터의 유형과 형식에 관계없이 임의의 데이터 세트를 항상 50 % 이상 효율적으로 압축한다고 주장 하는 다음 흥미로운 기사 를 우연히 발견했습니다 .

기본적으로 모든 숫자가 고유 한 소수 인 경우 압축을 풀기 쉬운 4 바이트 데이터 청크의 표현을 고유하게 사용하기 위해 소수를 사용합니다. 이 시퀀스를 소수와 연관시키기 위해 사전을 사용합니다.

내 질문은 :

저자가 제안한 것처럼 이것이 실제로 실현 가능한가? 이 논문에 따르면 결과는 매우 효율적이며 항상 데이터를 더 작은 크기로 압축합니다. 사전 크기가 엄청 크지 않습니까?
동일한 알고리즘을 사용하여 압축 된 데이터를 반복적으로 다시 압축하는 데 사용할 수 없습니까? 그러한 기술 (압축 된 데이터가 가능한 한 많은 횟수로 재 압축되어 파일 크기를 크게 줄이는)은 불가능하다는 것이 명백하고 입증되었습니다. 실제로, 모든 임의의 데이터 세트와 압축 된 데이터 사이에는 bijection이 없습니다. 그렇다면 왜 이것이 가능하다고 느끼는가?
기술이 아직 완벽하지 않더라도 분명히 최적화되고 강력하게 향상 될 수 있습니다. 왜 이것이 더 널리 알려지지 않았습니까? 실제로 이러한 주장과 실험 결과가 사실이라면 컴퓨팅에 혁명을 일으킬 수 없었습니까?

information-theory data-compression primes

— 클 랑겐
소스

5

관찰 한 바와 같이, 논문은 정말 강력한 주장을하고 있습니다. 특히 논문이 홀수 장소에 게시 된 경우, 특히 그러한 주장에 대해 의심이 큽니다 (놀라운 논문 "혁명 컴퓨팅"은 잘 알려진 장소에서 나타나야합니다).

— Juho

2

예를 들어 콜로 모고 로프 (Kolmogorov) 복잡도 이론 에 기초하여 "항상 임의의 데이터를 압축"하는 것은 불가능하다 . Disproof은 스케치 한 방법과 유사합니다. 이것이 용지 나 원본 용지를 잘못 해석하는지 확실하지 않습니다. 왜 특정 주장이 제기되는지 강조하지 않습니까?

— vzn

6

"동일한 알고리즘을 사용하여 압축 된 데이터를 반복적으로 다시 압축하는 데 사용할 수 없습니까?" - 예. 상관 항 압축 할 수 있도록, 그 알고리즘 모두 임의의 데이터가 반복적으로 데이터가 0 비트로 압축 될 수 있도록 자신의 출력에 적용될 수있다. 따라서이 주장은 불가능하다.

— Jörg W Mittag

1

@ JörgWMittag 파일을 적은 수의 비트로 반복적으로 압축 할 수있는 알고리즘이 있지만 매우 비실용적입니다. 또한 1 비트로 시작하는 파일에서만 작동합니다. 전체 파일을 큰 이진수로 취급하고 감소시킨 다음 선행 0을 버립니다. 압축을 풀려면 필요한 경우 앞에 1을 추가하여 늘리십시오.

— user253751

3

자기 자신에 대한 메모 : 어떤 논문도 엘스 비어 저널에 제출하는 것을 귀찮게하지 마십시오.

— 500-내부 서버 오류

34

임의 데이터 세트를 항상 50 % 이상 압축

불가능합니다. 임의의 데이터를 압축 할 수 없으므로 활용할 구조가 필요합니다. 압축, 뒤집을 수 있어야합니다 그래서 할 수없는 가능성이 압축 모두 50 % 길이 훨씬 적은 문자열이 있기 때문에 의 길이가보다 . $n/2$ $n$

이 논문에는 몇 가지 주요 문제가 있습니다.

그들은 내용의 표시없이 10 개의 테스트 파일을 사용합니다. 데이터가 실제로 무작위입니까? 그들은 어떻게 생성 되었습니까?
테스트 데이터는 압축률이 50 % 이상인 것으로 나타 났으며 테스트 데이터에 따르면 최대 50 %를 달성 했습니다 .

이 알고리즘은 10 진수 시스템에있는 소수를 사용하는 무손실 전략을 정의합니다.

뭐? 소수는 밑에 관계없이 소수입니다.
압축 해제 문제 # 1 : 소인수 분해는 어려운 문제입니다. 어떻게 효율적으로 수행합니까?
감압과 함께 문제 # 2 ( 이것은 키커입니다 ) : 소수를 곱하면 이기 때문에 주문에 대한 정보가 손실됩니다 . 나는 그들의 기술을 사용하여 압축을 풀 수 있다고 생각하지 않습니다. $2\cdot 5 = 10 = 5\cdot 2$

나는이 논문이 매우 좋다고 생각하지 않는다.

— 톰 반 데르 잔덴
소스

내가 이해 한 바에 따르면, 사전에 동일한 다중성을 가진 문자열의 순서를 저장합니다. 그러나 임의의 데이터 세트에서 다중도 1 (또는 동일한 다중도)을 가진 많은 4 바이트 문자열이 있다고 가정하면 막대한 사전을 생성해서는 안됩니까?

— Klangen

자신의 예에서 @Pickle, 문자열 "@THE는"나는 그들이하는 재구성 할 수 표시되지 않습니다 다양성 2.이 두 "는"가야 장소 단어.

— Tom van der Zanden

1

아, 알겠습니다 좋은 관찰. 실제로, 그것은 큰 문제입니다. 이 논문은 저널에 어떻게 게재 되었습니까? 더 엄격한 동료 검토가 필요하지 않습니까?

— Klangen

4

@Pickle 네, 더 엄격한 검토가 필요합니다. 그러나 때로는 경험이 부족하거나 게 으르거나 무능한 회의 주최자가 동료 검토자를 제 시간에 찾지 못할 수도 있습니다. 무작위로 생성 된 횡설수설이 포함 된 논문이 여러 번 발견되었으며, 한 저널에서 "나를 당신의 메일 링리스트에서 꺼내 줘" 라는 제목의 논문을 출판하기도했습니다 .

— Tom van der Zanden

하 하하하 하하하 그러나 동시에 슬프다.

— Klangen

15

나는 논문을 읽고 그 방법의 약점을 발견 한 것으로 보이는 Tom van der Zanden에게 연기 할 것입니다. 초록과 결과표에서이 논문을 자세하게 읽지는 않았지만, 상당히 믿을만한 주장처럼 보입니다.

그들이 주장하는 것은 텍스트 파일 ( "모든 파일"이 아님) 에 대해 일관된 50 % 압축 비율 이며, LZW와 거의 같으며 (아마도 0 차) 허프만 코딩보다 약 10 % 더 나쁩니다. 합리적으로 간단한 방법을 사용하여 텍스트 파일을 50 % 압축하는 것은 어렵지 않습니다. 많은 컴퓨터 과학 과정에서 학부 과제입니다.

나는 논문이 출판 된 연구만큼 좋지 않다는 것에 동의하며, 나는 그것이 논문이 받아 들여 졌다고 평가자들에게 잘 말하지 않는다고 생각합니다. 결과를 재현 할 수 없게 만드는 명백한 세부 사항 (예 : 텍스트 파일)을 제외하고 압축 필드에 결과를 연결하려고 시도하지 않고 알고리즘이 수행하는 작업을 실제로 이해한다는 의미는 없습니다.

회의 웹 사이트는 1 : 4 수락 비율을 주장하며 거부 한 사항을 궁금해합니다.

— 아호
소스

12

물어:

저자가 제안한대로 이것이 실제로 실현 가능합니까? 이 논문에 따르면 결과는 매우 효율적이며 항상 데이터를 더 작은 크기로 압축합니다. 사전 크기가 엄청 크지 않습니까?

물론입니다. 손으로 고른 예 ( "라지 도그보다 빠른 은색 폭스 점프")에도 사전에는 텍스트의 모든 4 바이트 하위 문자열이 포함되어 있기 때문에 압축을 달성 할 수 없습니다. 은 ") ... 그리고"텍스트의 압축 된 "버전은 전체 사전을 포함하는 플러스 모든 소수 쓰레기를.

동일한 알고리즘을 사용하여 압축 된 데이터를 반복적으로 다시 압축하는 데 사용할 수 없습니까? 그러한 기술 (압축 된 데이터가 가능한 한 많은 횟수로 재 압축되어 파일 크기를 크게 줄이는)은 불가능하다는 것이 명백하고 입증되었습니다. 실제로, 모든 임의의 데이터 세트와 압축 된 데이터 사이에는 bijection이 없습니다. 그렇다면 왜 이것이 가능하다고 느끼는가?

다시 한 번 상황을 직관적으로 파악하는 것 같습니다. 모든 입력 에 대해 어떤 압축 구성표도 효과적 일 수 없다는 것을 직관적으로 깨달았습니다. 그럴 경우 반복적으로 적용하여 모든 입력을 단일 비트로 압축 한 다음 아무 것도 압축 할 수 없기 때문입니다!

다시 말해 : 모든 .wav 파일을 .mp3로 압축 한 후에는 파일 크기를 압축하여 파일 크기를 개선 할 수 없습니다. MP3 컴프레서가 작업을 완료 한 경우 ZIP 컴프레서가 사용할 패턴이 남아 있지 않습니다.

(암호에도 동일하게 적용됩니다. 선택한 0의 암호화 알고리즘에 따라 0의 파일을 가져 와서 암호화하면 결과 파일 이 압축되지 않는 것이 좋습니다. 그렇지 않으면 암호화 알고리즘이 출력에 "패턴"을 유출합니다!)

기술이 아직 완벽하지 않더라도 분명히 최적화되고 강력하게 향상 될 수 있습니다. 왜 이것이 더 널리 알려지지 않았습니까? 실제로 이러한 주장과 실험 결과가 사실이라면 컴퓨팅에 혁명을 일으킬 수 없었습니까?

이러한 주장과 실험 결과는 사실 이 아닙니다 .

Tom van der Zanden이 이미 언급했듯이 Chakraborty, Kar 및 Guchait의 "압축 알고리즘"은 압축 비율을 달성 할 수 없을 뿐만 아니라 돌이킬 수 없다는 점 에도 결함 이 있습니다 (수학에서는 "미사일"이 아님). 그들의 알고리즘은 기본적으로 곱셈이고 곱셈은 교환 적이므로, 모두 같은 이미지로 압축되는 많은 텍스트.

이러한 개념을 직관적으로 이해하면 즉시 올바른 결론을 내릴 수 있습니다. 그리고 시간을 절약 할 수 있다면 , 주제를 전혀 이해하지 않고 주제에 대해 생각 하는 데 많은 시간을 소비 한 논문 저자들에게 불쌍 감을 느낄 것 입니다.

게시 한 URL보다 한 수준 위의 파일 디렉토리 에는 동일한 품질의 139 개의 "논문"이 포함되어 있으며, "컴퓨터, 정보, 통신 및 응용 분야의 신흥 연구에 관한 국제 회의 절차"에 모두 들어 있습니다. 이것은 일반적인 유형의 가짜 회의처럼 보입니다. 이러한 회의의 목적은 사기 학자들이 "저널에 출판"을 주장 할 수 있도록하는 동시에 부도덕 한 주최자가 엄청난 돈을 벌 수 있도록하는 것입니다. (가짜 회의에 대한 자세한 내용은 이 레딧 스레드 또는 주제에 대한 다양한 StackExchange 게시물을 확인하십시오 .) Sham 회의는 모든 필드에 존재합니다. 본능을 신뢰하고 "컨퍼런스 진행"에서 읽은 모든 것을 믿지 않으면 잘될 것입니다.

— 쿼 플러스 원
소스

이 백서가 왜 일반 쓰레기인지 명확하게 설명해 주셔서 감사합니다. 처음에 작성되었으며 어떤 유형의 검토를 거쳤는지 가능한 방법을 알려주십시오.

— vaab

간결한 답변에 감사드립니다. 저널 항목이 적어도 일종의 동료에 의해 검토되는 것을 신뢰할 수조차 없을 때 정말 슬픈 일 입니다. 이것은 "추천 된"과학 저널 출판물을 읽을 때도주의를 기울여야한다는 사실에 대해 많은 설명을하고 있습니다. 그러한 기사는 동료 "검토"뿐만 아니라 그러한 분야에서 관례적인 것처럼 최소 동료 "분석"의 대상이라고 생각할 것이다. 나는 이것이 많은 사람들에게 눈을 뜨게 해주길 바란다.

— Klangen

나는 오늘 비슷한 "무한 압축 알고리즘"에 대해 적어도 두 개의 미국 특허가 존재한다는 것을 배웠다. 참조 gailly.net/05533051.html

— Quuxplusone

5

엔트로피 는 가능한 가장 강력한 무손실 압축 성능을 효과적으로 제한합니다. 따라서 임의 데이터 세트를 항상 50 % 이상 압축 할 수있는 알고리즘이 없습니다.

— 제이 핀
소스

8

임의 데이터 세트를 항상 0.0000001 % 이상 압축 할 수있는 알고리즘도 없습니다.

— David Richerby

1

복원 가능한 압축 방법은 일반적으로 패턴을 찾아 간단한 방법으로 다시 표현합니다. 일부는 매우 영리하고 일부는 매우 단순합니다. 어떤 시점에는 패턴이 없습니다. 프로세스는 데이터 세트를 가장 단순한 고유 패턴으로 '보일드'했습니다. 이 시점부터 압축을 시도하면 더 큰 데이터 세트가 생성되거나 고유성이 희석됩니다. 매직 넘버 압축 방식에는 항상 결함이나 약간의 손 또는 손실이 있습니다. 최신 WinZip 또는 RAR을 수행한다고 주장하는 프로세스에주의하십시오.

— 스킵 베른
소스

2

s

$s$

s

$s$

s

$s$

1

@DavidRicherby, 그런 다음 빈 문자열을 압축하면 SkipBerne이 주장한 것처럼 더 큰 데이터 세트가 생성됩니다. 그럼에도 불구하고 그의 대답은 그가 동일한 알고리즘을 사용하여 이전 출력 을 다시 압축하는 것에 대해 언급하고 있음을 분명히해야한다고 생각 합니다 .

— Ángel

2

@ 앙헬 SkipBerne의 주장은 어떤 알고리즘 ( "압축 할 수없는 문자열이 존재한다는 것입니다 있는 이 시점에서 압축에서 시도"나의 강조). 내가주는 이유는 올바르지 않습니다 : 모든 문자열에 대해 해당 문자열을 압축하는 알고리즘이 있습니다.

— David Richerby

내가 그것을 해석하는 방법 SkipBerne은 모든 압축 알고리즘에 대해 계산할 수없는 문자열이 있다고 주장합니다. 뭐가 진실이지. 압축 할 수없는 문자열은 물론 알고리즘마다 다릅니다.

— 호세 안토니오 Reinstate 모니카

@DavidRicherby 당신은 정량자를 잘못 바꾸는 것입니다. SkipBerne이 (압축 방법에는 압축이없는 시점이 있습니다) 압축하지 않았다는 것이 분명합니다 (압축 방법에는 압축 방법이있는 시점이 있습니다) 압축 없음). 이 답변은 사실은 정확하지만 더 오래된 서면 답변에는 추가되지 않습니다.

— Gilles 'SO- 악마 그만해'