이미지 압축에서 특정 웨이블릿이 다른 것보다 "더 나은"특성은 무엇입니까?

39

웨이블릿 변환 방법을 사용하여 이미지 압축에 대해 더 많이 배우려고합니다. 내 질문은 : 이미지를 압축 할 때 선호하는 특정 웨이블릿에 대해 무엇입니까? 계산하기가 더 쉽습니까? 더 부드러운 이미지를 생성합니까? 기타...

예 : JPEG 2000 은 Cohen-Daubechies-Feauveau 9/7 Wavelet을 사용합니다. 왜 이런 것입니까?

image-processing wavelet

— 사용자
소스

내가 아는 한 Daubechies 웨이블릿은 매끄러운 기초를 제공하므로 압축률이 높은 이미지가 "흐리게"나타납니다. 예를 들어 Haar wavelet은 블록 형태의 아티팩트를 생성합니다. JPEG 2000을 언급 했으므로 0이 아닌 웨이블릿 계수의 코딩 방식도 디코딩 된 이미지 (EZW, SPIHT, ...)에 영향을 미칩니다.

— Libor

귀하의 질문에 대한 답변을 받았습니다. 유용한 것들에 투표하고 가장 적합한 것을 수락하는 것을 망설이지 말라

— Laurent Duval

26

개요

짧은 대답은 vanishing moments주어진 최대 수 support(즉, 필터 계수의 수)를 갖는다는 것입니다. 그것은 Daubechies 웨이블릿 을 일반적으로 구별하는 "익스트림"속성입니다 . 느슨하게 말하면, 더 많은 소실 모멘트는 더 나은 압축을 의미하고 더 작은 지원은 더 적은 계산을 의미합니다. 실제로 소실 모멘트와 필터 크기 간의 트레이드 오프는 너무 중요하여 웨이블릿의 이름이 지정되는 방식을 지배합니다. 예를 들어, D4웨이블릿 이 종종 D4또는db2 . 는 4계수의 개수를 의미하고,2소실 순간의 수를 나타냅니다. 둘 다 동일한 수학적 대상을 나타냅니다. 아래에서는 어떤 순간이 무엇인지 (그리고 왜 사라지게 하려는지) 더 자세히 설명하지만 지금은 신호의 대부분의 정보를 더 작은 크기로 얼마나 잘 "접을 수 있는지"와 관련이 있음을 이해합니다. 값의 수 손실 압축은 이러한 값을 유지하고 다른 값을 버림으로써 달성됩니다.

CDF 9/7에서 사용되는 JPEG 2000의 이름에는 이름이 아닌 두 개의 숫자 가 있음을 알 수 있습니다 . 실제로이라고도합니다 bior 4.4. 그것은 "표준"이산 웨이블릿이 아니기 때문입니다. 실제로, 그것은 신호 적으로 에너지를 기술적으로 보존하지도 않으며, 그 속성은 사람들이 처음에 DWT에 대해 너무 흥분한 이유입니다! 숫자, 9/7그리고 4.4여전히 각각 지원과 소멸의 순간을 참조하지만 지금은 웨이블릿을 정의 계수의 두 가지가있다. 기술 용어는 오히려 것보다 있다는 것입니다 orthogonal, 그들이 biorthogonal. 수학적으로 의미하는 바에 너무 깊이 들어가기보다는

JPEG 2000

CDF 9/7 웨이블릿을 둘러싼 디자인 결정에 대한 자세한 내용은 다음 백서에서 확인할 수 있습니다.

Usevitch, Bryan E. Modern Lossy Wavelet 이미지 압축에 대한 자습서 : JPEG 2000의 기초 .

여기서 주요 요점을 검토하겠습니다.

종종 직교 Daubechies 웨이블릿은 실제로 신호를 나타내는 데 필요한 값의 수를 증가시킬 수 있습니다. 효과를이라고 coefficient expansion합니다. 우리가 손실 압축을하고 있거나 중요하지 않을 수도 있지만 (어쨌든 가치를 버리고 있기 때문에) 압축의 맥락에서 비생산적 인 것처럼 보입니다. 문제를 해결하는 한 가지 방법은 입력 신호를 주기적으로 처리하는 것입니다.
입력을 주기적으로 처리하면 가장자리에서 불연속성이 생겨 압축하기 어렵고 변환의 아티팩트 일뿐입니다. 예를 들어, 다음주기 확장에서 3에서 0으로의 점프를 고려하십시오. . 이 문제를 해결하기 위해 다음과 같이 신호의 대칭주기 확장을 사용할 수 있습니다. $[0,1,2,3] \rightarrow [...0,1,2,3,0,1,2,3,...]$ . 가장자리에서 점프를 제거하는 것이 JPEG의 DFT 대신 이산 코사인 변환 (DCT)을 사용하는 이유 중 하나입니다. 코사인으로 신호를 나타내는 것은 입력 신호의 "전후 루프 반복"을 암시 적으로 가정하므로 동일한 대칭 특성을 갖는 웨이블릿을 원합니다. $[0,1,2,3] \rightarrow [...,0,1,2,3,3,2,1,0,0,1...]$
불행하게도, 필요한 특성을 갖는 유일한 직교 웨이블릿은 하나의 소실 모멘트 인 Haar (또는 D2, db1) 웨이블릿입니다. 어. 이로 인해 실제로는 중복 표현이므로 에너지를 보존하지 않는 생체 직교 웨이블릿이 생성됩니다. CDF 9/7 웨이블릿이 실제로 사용되는 이유 는 에너지 보존에 매우 가깝게 설계 되었기 때문 입니다. 그들은 실제로 잘 테스트했습니다.

다양한 문제를 해결할 수있는 다른 방법이 있지만 (논문에서 간단히 언급), 관련된 여러 가지 요소가 있습니다.

사라지는 순간

그렇다면 순간은 무엇이며, 왜 우리는 그 순간에 관심을 갖습니까? 부드러운 신호는 다항식, 즉 다음과 같은 형식의 함수로 근사 할 수 있습니다.

에이 + 비 엑스 + 씨 {엑스}^{2} + 디 {엑스}^{삼} + . . .

$a + bx + cx^2 + dx^3 + ...$

함수의 순간 (즉, 신호)은 주어진 x의 거듭 제곱과 얼마나 유사한 지 측정합니다. 수학적으로 이것은 함수와 x의 거듭 제곱 사이의 내부 곱 으로 표현됩니다 . 소실 모멘트는 내부 제품이 0을 의미하므로이 함수는 다음과 같이 (연속적인 경우) x의 거듭 제곱과 "유사"하지 않습니다.

\int {엑스}^{엔} 에프 (엑스) 디 엑스 = 0

$\int{x^n f(x) dx = 0 }$

이제 각각의 개별 직교 웨이블릿에는 DWT에 사용되는 두 개의 FIR 필터 가 있습니다. 하나는 저역 통과 (또는 스케일링) 필터 이고 다른 하나는 고역 통과 (또는 웨이블릿) 필터 $\phi$ $\psi$ . 그 용어는 약간 다를 것 같지만 여기서 사용할 것입니다. DWT의 각 단계에서, 고역 통과 필터는 디테일의 계층을 "필 오프"하는데 사용되며, 저역 통과 필터는 그 세부 사항없이 매끄러운 버전의 신호를 생성합니다. 고역 통과 필터에 소실 모멘트가있는 경우 해당 모멘트 (즉, 저차 다항식 특성)는 상세 신호가 아닌 상보 적 평활화 신호에 채워집니다. 압축 손실의 경우 디테일 신호에 많은 정보가 없기 때문에 대부분을 버릴 수 있습니다.

다음은 Haar (D2) 웨이블릿을 사용하는 간단한 예입니다. 일반적으로 스케일링 계수는 $1/\sqrt{2}$

ϕ = [1, 1] ψ = [1, - 1]

$\phi = [1,1] \\ \psi = [1,-1]$

$x^0 = 1$ $[2,2,2,2]$

[2, 2, 2, 2] \to_{ψ}^{ϕ} {\begin{array}{rr} [2 + 2, 2 + 2] = [4, 4] \\ [2 - 2, 2 - 2] = [0, 0] \end{array}

$[2,2,2,2] \rightarrow_{\psi}^{\phi} \left\{ \begin{array}{rr} \left[2 + 2, 2 + 2\right] = \left[4,4\right] \\ \left[2-2,2-2\right] = \left[0,0\right] \end{array}\right.$

그리고 두 번째 패스에서 발생하는 것은 평활 신호에서만 작동합니다.

[4, 4] \to_{ψ}^{ϕ} {\begin{array}{rr} [4 + 4] = [8] \\ [4 - 4] = [0] \end{array}

$[4,4] \rightarrow_{\psi}^{\phi} \left\{ \begin{array}{rr} \left[4 + 4\right] = \left[8\right] \\ \left[4-4\right] = \left[0\right] \end{array}\right.$

$2$ $8$ $8$

추가 자료

위의 치료에 접근 할 수 있도록 많은 세부 사항을 고집하고 있습니다. 다음 문서는 훨씬 더 심도있는 분석을 제공합니다.

JPEG2000 웨이블릿 필터의 수학적 특성 인 M. Unser 및 T. Blu , IEEE Trans. Image Proc., vol. 12 번 2003 년 9 월 9 일, pg. 1080-1090.

각주

위의 논문은 JPEG2000 웨이블릿을 Daubechies 9/7이라고하며 CDF 9/7 웨이블릿과는 다른 것으로 보인다.

JPEG2000 Daubechies 9/7 스케일링 필터의 정확한 형식을 도출했습니다.이 필터는 과 동일한 다항식의 인수 분해 결과입니다 $Daubechies_{8}$ [10] . 가장 큰 차이점은 9/7 필터가 대칭이라는 것입니다. 더구나 Cohen-Daubechies-Feauveau [11]의 생체 직교 스플라인과는 달리, 다항식의 비정규 부분은 양쪽으로, 그리고 가능한 한 고르게 나누어 져 있습니다.

[11] A. Cohen, I. Daubechies 및 JC Feauveau,“컴팩트하게 지원되는 웨이블릿의 쌍각 기초”, Comm. 순수한 Appl. 수학, vol. 45 번 5, 485–560, 1992 쪽.

내가 찾은 JPEG2000 표준 초안 ( pdf 링크 )은 공식 필터 Daubechies 9/7이라고도합니다. 이 논문을 참조하십시오 :

M. Antonini, M. Barlaud, P. Mathieu 및 I. Daubechies,“웨이블릿 변환을 사용한 이미지 코딩”, IEEE Trans. 이미지 처리 1, pp. 205-220, 1992 년 4 월.

그 소스 중 하나를 읽지 못했기 때문에 Wikipedia가 JPEG2000 wavelet CDF 9/7을 호출하는 이유를 확실히 알 수 없습니다. 둘 사이에 차이가있는 것처럼 보이지만 사람들은 공식 JPEG2000 웨이 브릿 CDF 9/7이라고 부릅니다 (동일한 기초를 기반으로하기 때문에). 이름에 관계없이 Usevitch의 논문은 표준에서 사용되는 논문을 설명합니다.

— datageist
소스

@datageist 환상적인 답변! 또한 9/7이 처음으로 존재하게 된 또 다른 이유는 필터가 대칭 이어야한다는 제약 조건으로 재구성 다항식을 인수 분해하는 다른 방법이기 때문 입니다. 이런 식으로 위상 응답은 선형으로 유지됩니다. 반대로, daub4 웨이블릿은 FIR 인 동안 비대칭이며 처리 된 신호에서 비선형 위상을 유도합니다. 9/7은 이미지에서 선형이 아닌 비선형 왜곡을 좋아하는 주관적인 성향 때문에 JPEG에서 사용되었습니다.

— Spacey

1

좋은 기사. Wikipedia 기사의 정보는 인용 된 출처, 본질적으로 Daubechies "10 Lectures"에 해당하므로 JPEG2000과 관련하여 구식 일 수 있습니다. 한 가지 수정 : 생체 직교는 중복되지 않습니다. 생체 직교 조건은 정확히 역 필터 뱅크를 부과합니다. 중복 변환은 프레임 렛으로 시작합니다.

— 닥터 루츠 레만

10

신호 변환의 장점은 압축과 손실 압축의 경우 품질이라는 두 가지 다른 메트릭에서 평가됩니다. 압축은 에너지 압축에 의해 정의되지만 품질은 더 어렵습니다.

전통적으로 품질은 평균 제곱 오차 또는 픽셀 당 평균 SNR로 측정되었습니다. 그러나 인간은 MSE 또는 SNR로 신호를 평가하는 경향이 없습니다. 인간은 MSE가 아닌 구조적 소음에 매우 민감합니다. 인간과 같은 품질 메트릭을 제공하는 알고리즘을 개발하는 것이 활발한 연구 분야입니다. Bovik의 SSIM (Structural SIMilarity) 지수 는 시작하기에 좋은 장소입니다.

— 토토 투
소스

6

아주 짧은 대답으로-변환이있을 때 다른 변환보다 낫습니다. "에너지 압축 속성"은 다음과 같이 설명됩니다.

"소수의 계수를 유지하고 다른 계수를 폐기하거나 양자화하는 것만으로도 재구성이 거의 완벽 해 지도록 변환 계수의 작은 부분 만이 큰 크기를 가질 때" 이러한 속성은 단일 변환의 역 상관 능력과 관련이 있습니다. "

더 적은 에너지 압축 특성을 갖는 변환은 가장 적은 수의 심볼 및 따라서 더 적은 비트를 필요로하는 것이다.

에너지 압축 특성이 가장 높은 변환은 DCT입니다.

디판

— 디판 메타
소스

1

DCT는 알려지지 않은 신호 클래스에 대해서만 가장 높은 에너지 압축률을 갖습니다. 신호 도메인을 특성화 할 수 있다면 더 잘할 수 있습니다.

— totowtwo

@totowtwo에 동의합니다. 필자의 요점은 "에너지 압축 특성"이 특정 변형을 만드는 것이 코덱 엔진에 바람직하다는 것입니다.

— Dipan Mehta

5

자연스러운 이미지는 서로 다른 이미지 기능으로 구성되며, 이미지를 부드럽게 또는 느리게 변하는 특징, 질감 및 가장자리로 분류 할 수 있습니다. 좋은 압축 방법은 신호의 모든 에너지가 몇 가지 계수로 보존되는 영역으로 이미지를 변환하는 방법입니다.

푸리에 변환은 사인과 코사인을 사용하여 이미지를 근사화하려고 시도합니다. 이제 사인 및 코사인이 부드러운 신호를 상당히 간결하게 근사 할 수 있지만 불연속성을 근사하기에는 악명 높은 것으로 악명이 높습니다. Gibbs 현상에 익숙하다면 시간의 불연속을 근사화하는 인공물을 피하기 위해 많은 푸리에 계수가 필요하다는 것을 알 수 있습니다. 그러나 계수 수가 적을수록 압축 성능이 향상됩니다. 따라서 계수의 수와 압축 방법의 손실 사이에는 고유 한 트레이드 오프가 있으며,이를 일반적으로 속도 왜곡 트레이드 오프라고합니다.

$k^{-2/3}$ $k^{-1}$ 각각. 같은 수의 항에 대해 웨이블릿의 경우 오류가 더 빨리 감소합니다. 이것은 이미지가 완벽하게 매끄럽지 않고 (느리게 변하지 않고) 특이점을 포함 할 때 웨이블릿의 에너지 압축이 더 우수하다는 것을 의미합니다.

그러나 아직 부드러운 특징, 점 특이점, 가장자리 및 질감을 근사 할 수있는 단일 기준 또는 변환은 없습니다.

— 사용자 3303
소스

4

DCT는 많은 공통 신호에 대해 에너지 압축이 매우 우수하며 회절이 푸리에 커널로 표현 될 수 있기 때문에 회절 (영상의 기본 물리 프로세스) 작동 방식과 상당히 잘 맞습니다. 이것들은 많은 이점을 제공합니다.

문제는 DCT 계수가 전체 변환 영역에 대해 반드시 비편 재화된다는 것입니다. 이를 위해서는 변환시 한 영역의 에너지가 다른 영역으로 넘치지 않도록 많은 작은 변환 영역 (블록)을 만들어야합니다. 이것은 변환 에너지를 컴팩트 한 에너지로 제한하고, 많은 블록 경계에서 아티팩트를 발생시킨다.

웨이블릿을 많이 사용하지 않아서 틀릴 수는 있지만 다른 지역 / 주파수 트레이드 오프를 나타내는 다른 계수로 더 지역화되어 있습니다. 이것은 아티팩트가 적고 더 큰 블록 크기를 허용합니다. 실제로 실제로 얼마나 많은 차이가 있는지 확실하지 않습니다.

— 큰 여행 트렁크
소스

0

더 나은 웨이블릿에 관해 이야기 할 때, 그것들은 뒤에 동일한 인코더가 있다는 것을 고려해야합니다. 변환의 성능은 양자화 및 인코딩과 크게 얽혀 있습니다. 성능은 일반적으로 동일 품질의 압축률이 향상되거나 동일한 압축의 품질이 향상됩니다. 압축은 쉬운 척도이며 품질은 아닙니다. 그러나 우리에게 하나가 있다고 가정하십시오.

이제 웨이블릿 (엔코더 포함)은 압축 비율 (낮음)이 더 좋고 다른 것 (높음)이 더 나을 수 있습니다. 일반적으로 약간만, 높음 ( 여부에 따라 $\times 124$ $\times 4$ )을 다른 웨이블릿을 선택할 수 있습니다.

마지막으로, 이것은 압축하려는 이미지의 종류에 따라 다릅니다. 의료 이미지 나 지진 데이터 압축과 같이 모든 목적이 있거나 집중되어 있습니까? 여기서도 웨이블릿이 다를 수 있습니다.

이제 이미지의 주요 형태 학적 구성 요소는 무엇이며 웨이블릿은 이미지를 어떻게 처리합니까?

느린 추세, 진화하는 배경 : 웨이블릿 서브 밴드에서 다항식을 제거하는 소실 순간,
범프 : 스케일링 기능으로 OK,
가장자리 : 웨이블릿의 미분 측면에 잡힌
텍스쳐 : 웨이블릿의 흔들리는 부분에 의해 포착 된 진동
나머지는 시끄럽고 모델링되지 않은 것 : 직교성에 의해 관리됩니다 (또는 너무 가깝습니다).

따라서 분석 측면에서 최상의 웨이블릿은 위의 기능을 전 세계적으로 멋지게 압축하는 것이 좋습니다. 합성 측면에서, 최상의 웨이블릿은 압축 효과, 예를 들어 양자화를 완화 시켜서 쾌적한 양상을 제공한다. 분석 / 합성에 필요한 특성이 약간 다르기 때문에 생체 직교 웨이블릿이 좋은 이유 : 직교 특성으로는 분리 할 수없는 분석 (소멸 모멘트) / 합성 (부드러움) 특성을 분리 할 수 있으며 필터 길이가 증가합니다. 계산 성능에 상당히 해 롭습니다. 또한, 생체 직교 웨이블릿은 대칭 적이며 에지에 적합 할 수 있습니다.

마지막으로, 무손실 압축을 원하십니까? 그런 다음 "정수"와 같은 웨이블릿 (또는 비릿 릿)이 필요합니다.

그리고 위의 모든 것들이 계산 문제와 혼합되어 있습니다 : 분리 가능한 웨이블릿, 너무 길지 않음. JPEG위원회의 표준화 과정.

마지막으로, 5/3는 무손실, 짧게 충분합니다. 9/7 중 일부도 좋습니다. 13/7 잔물결보다 훨씬 낫 습니까? 실제로는 아니더라도 PSNR에 있지만 이미지 품질에는 최고가 아닙니다.

따라서 최고의 잔물결은 전통적인 이미지와 작가와의 개인적인 커뮤니케이션을위한 수염입니다.

JPEG2000 웨이블릿 필터의 수학적 특성 인 M. Unser 및 T. Blu , IEEE Trans. Image Proc., vol. 12 번 2003 년 9 월 9 일, pg. 1080-1090.

9/7의 "최상의"측면이 완전히 설명되거나 보장되지 않았다고 믿게 해주십시오.

$M$

— 로랑 듀발
소스