전역 압축 방법과 범용 압축 방법의 차이점은 무엇입니까?


12

압축 방법은 두 가지 주요 세트로 나눌 수 있음을 이해합니다.

  1. 글로벌
  2. 현지

첫 번째 세트는 처리중인 데이터에 관계없이 작동합니다. 즉, 데이터의 특성에 의존하지 않으므로 데이터 세트의 일부 (압축 자체 이전)에서 사전 처리를 수행 할 필요가 없습니다. 반면에 로컬 방법은 데이터를 분석하여 일반적으로 압축률을 향상시키는 정보를 추출합니다.

이 방법들 중 일부에 대해 읽는 동안 나는 단 항적 방법이 보편적이지 않다는 것을 알아 차렸다. 나는 "세계 성"과 "대학 성"이 같은 것을 지칭한다고 생각한 이후 놀랐다. 단항 방법은 데이터의 특성에 의존하여 인코딩 (즉, 전역 방법)을 생성하지 않으므로 전역 / 범용이어야합니까?

내 주요 질문 :

  • 보편적 인 방법과 세계적인 방법의 차이점은 무엇입니까?
  • 이 분류가 동의어가 아닙니까?

2
단항 방법이 보편적이지 않다는 것을 읽고 참조 할 수 있습니까? 상황에 도움이 될 수 있습니다.
공기

3
나는 이것이 어떻게 데이터 과학과 관련이 있는지 잘 모르겠습니다. 이 스택 교환에서는 주제가 아닌 것 같습니다. 이것을 다시 데이터 과학과 관련시킬 수 있습니까?
Slater Victoroff

@ SlaterTyranus I ... 확실하지 않습니다 (그리고 내가 게시 한 두 가지 다른 질문에 대해 생각하게했습니다). 압축 방법이 정보 검색 (주로 인덱싱 중)에서 주로 사용되므로 내 생각은이 질문을 추가하는 것이 었습니다. 일반적으로 이것은 효율성과 관련 이 있으며이 벤 다이어그램해킹 기술 영역에 포함될 수 있습니다 . 어쨌든, 이런 종류의 질문이 주제에 관한 것인지 토론하는 것이 좋을 것 같습니다.
Rubens

@Rubens 그것은 합리적인 토론처럼 보인다. 내 마음에 효율성 대화는 명시적인 해킹 기술 보다 이론적 인 CS와 훨씬 더 부합한다 . 내 마음에 해킹 기술은 데이터베이스, 배포 및 도구에 대한 지식과 훨씬 관련이 있습니다.
Slater Victoroff

1
@SvanBalen 두 가지 주요 사항 : 1. 정보 이론은 데이터 과학에 대한 일부 접근 방식에서 중요하지만 다른 많은 것에는 관련이 없습니다. 2. 기본 사항은 본질적으로 주제가 아니므로 통계 또는 선형 대수에 대한 자세한 질문은 유용한 데이터 과학에 엄격하게 요구되지만 주제와 유사하지 않습니다.
Slater Victoroff

답변:


3

다음과 같은 데이터 청크를 고려하십시오.

1010010110100101

범용 -이들은 데이터에 구애받지 않는 일반적인 압축 알고리즘입니다. 실행 길이 인코딩 의 조잡한 버전 이이 범주에 속합니다. 장점은 압축 및 압축 해제가 매우 빠르다는 것입니다. 단점은 압축 할 데이터에 따라 매우 비효율적 일 수 있다는 것입니다.

1111111111111111-> 16 1 (행운의 경우)

1010010110100101-> 1010010110100101 (불운의 경우)

로컬 -이 방법은 고정 길이의 작은 세그먼트 (예 : 4)를 고려하여 패턴을 찾아 압축합니다. 예 : 이 데이터에는 1010 및 0101의 두 가지 유형의 패턴 만 포함됩니다.이 패턴은 0과 1로 표현 될 수 있으며 전체 데이터는 맵핑을 나타내는 테이블이며 0101과 같은 것입니다. 이는 훨씬 더 작은 결과를 가져올 수 있습니다. 압축 된 크기.

1010010110100101-> 1010 0101 1010 0101-> 0101 (0 = 1010,1 = 0101)

글로벌 -이 방법은 전체 데이터를보고 데이터를 압축하기위한 최적 / 훨씬 더 나은 패턴을 찾습니다. 예시 데이터는 단지 하나의 패턴 (10100101)을 포함하고 맵핑 테이블과 함께 00으로 표현한다. 이것은 가능한 가장 작은 압축 크기를 얻을 가능성이 있지만 계산적으로 가장 무겁습니다.

1010010110100101-> 10100101 10100101-> 00 (0 = 10100101)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.