DCT와 PCA의 관계


12

이미지 및 비디오 압축에 사용되는 2D 8x8 DCT에 대한 기본 구현 지식이 있습니다. Principle Component Analysis에 대해 읽는 동안 PCA가 더 일반적이지만 많은 유사점을 볼 수 있습니다. 이전에 DCT에 대해 읽었을 때 항상 DFT와 관련하여 제시되었습니다. 그래서 제 질문은 어떻게 PCT 관점에서 DCT를 도출 할 수 있습니까? (바람직한 설명으로도 충분 함)

많은 감사

답변:


19

DCT와 PCA의 주요 차이점 (보다 정확하게는 Karhunen Loeve Transform 이라고도하는 상관 행렬의 고유 벡터에 의해 형성된 기준으로 데이터 세트를 나타냄 )은 주어진 데이터 세트에 대해 PCA를 정의해야한다는 것입니다. DCT는 "절대"이며 입력 크기만으로 정의됩니다. 이것은 PCA를 "적응"변환으로 만드는 반면 DCT는 데이터 독립적입니다.

PCA가 적응성으로 인해 이미지 또는 오디오 압축에 더 자주 사용되지 않는 이유가 궁금 할 수 있습니다. 두 가지 이유가 있습니다.

  1. 데이터 세트의 PCA를 계산하고 계수를 인코딩하는 인코더를 상상해보십시오. 데이터 세트를 재구성하기 위해, 디코더는 계수 자체뿐만 아니라 변환 매트릭스 (데이터에 의존하며 액세스 할 수없는 데이터에 의존)도 필요하다. DCT 또는 다른 데이터 독립 변환은 입력 데이터의 통계적 종속성을 제거하는 데 덜 효율적일 수 있지만 변환 매트릭스는 전송하지 않아도 코더와 디코더 모두에 의해 미리 알려져 있습니다. 부수적 인 정보를 거의 요구하지 않는 "충분히 좋은"변환은 부가적인 부수적 인 정보를 필요로하는 최적의 변환보다 낫습니다

  2. NN×64이 타일의 광도와 매트릭스. 이 데이터에 대한 PCA를 계산하고 추정 할 주요 구성 요소를 플로팅하십시오. 이것은 매우 깨달은 실험입니다! 가장 높은 순위의 고유 벡터가 실제로 DCT 기반의 변조 된 사인파 패턴처럼 보일 가능성이 매우 높습니다. 이것은 충분히 크고 일반적인 이미지 타일 세트의 경우 DCT가 고 유량에 대한 매우 근사치라는 것을 의미합니다. 많은 양의 오디오 녹음에서 추정되는 멜 간격 주파수 대역의 로그 신호 에너지에 대한 고유 기준이 DCT 기준에 가깝기 때문에 오디오에 대해서도 동일한 것이 확인되었습니다 (따라서 역 상관 변환으로 DCT 사용). MFCC를 계산할 때).


1
흥미롭지 만, 시작하는 이미지의 '일반적인'통계와 DCT 대신 사용 된 통계를 기반으로 다른 기본 세트를 구성하지 않을 수 있습니까? 그런 근거가 PCA만큼 좋지는 않지만 DCT보다 더 좋을 것이라고 생각합니까?
Spacey

@pichenettes-DCT와 관련하여 수평 및 수직 주파수가 증가하는 일반적인 이미지는 무엇입니까 (예 : goo.gl/XLMt5 )? DCT 기본 기능의 이미지 표현입니까? 이 경우 이러한 이미지의 공분산 행렬에서 PCA / 고유 벡터를 계산하면 DCT 계수 행렬이 나에게 해당됩니까?
trican

Btw @pichenettes 귀하의 통찰력있는 답변에 감사드립니다. 나는 포인트 1을 알고 있었지만 실제로 포인트 2를 고려하지 않았습니다.
trican

1
@ Mohammad : 이것은 좋은 질문이며 답을 모르겠습니다. DCT 사용의 장점 : 스펙 작성이 용이함 ( "부록에이 64x64 매트릭스 변환"보다 "우리의 변환은이 폐쇄 형 함수 임"을 인쇄하는 것이 더 쉽습니다), 훈련 할 데이터 세트에 대한 표준화위원회 회의 없음 디코더의 ROM에 포함시킬 변환이 적고 조회 테이블이 적고, 잔인한 64x64 매트릭스 곱셈에 비해 하드웨어 가속이 가능한 변환 매트릭스의 "기호"-이러한 장점은 한계 압축 이득을 능가 할 수 있습니다.
pichenettes

1
@trican : 연결 한 이미지는 8x8 타일의 2D DCT 기준을 나타냅니다. 64 개의 작은 타일 각각은 기본 기능입니다. 실제 이미지에서 8x8 타일을 대량으로 수집하고 데이터에서 PCA를 수행하면 얻을 수있는 고유 기준은 그와 매우 유사합니다.
pichenettes
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.