DFT 대신 오디오 크기 스펙트럼에 DCT를 사용할 수 있습니까?


13

내가 이해 한 바에 따르면, DCT는 동일한 크기 N의 DFT로서 빈 크기의 절반을가집니다. DFT는 위상 정보도 포함하지만 종종 크기 스펙트럼 만 필요한 경우에는 필요하지 않습니다.

  • DCT를 사용하여 DFT 밀도의 2 배 (빈 간격의 절반)를 가진 크기 스펙트럼을 제공하거나 위상 정보가 손실 될 수 있습니까?
  • 50 % 중복되는 것은 어떻습니까?

4
DCT에도 위상 정보가 포함되어 있다고 생각합니다. 단지 복잡한 숫자를 사용하지 않습니다. "실제 FFT"는 동일한 음수 주파수를 버림으로써 동일한 정보에 대해 절반의 메모리와 절반의 계산 시간을 사용합니다. "2 배 길이 FFT의 실제 부분은 정현파 기본 함수의 반 샘플 위상 편이를 제외하고 DCT와 동일합니다"
endolith

실제로, 최소한 계수의 부호는 가난한 사람의 위상으로 간주 될 수 있습니다
Laurent Duval

답변:


3

예, DCT는 밀도가 두 배인 크기 스펙트럼을 제공하는 데 사용할 수 있습니다. 나는 겹치는 부분을 잘 이해하지 못하지만 DCT가 덜 다루기 때문에 겹치는 부분이 있다고 생각합니다. 질문에 대한 적절한 답변을 제공하기 위해 주로 이미지 처리에서 DCT 사용에 대해 빠르게 검토하겠습니다.

먼저 몇 가지 가정을해야합니다. DCT를 사용하려면 실제 신호가 있어야합니다. 이것은 정의에 의한 것입니다. 당신이 말하고있는 동안, DCT는 N 크기의 DFT에 비해 빈 크기가 절반입니다. 신호가 저주파 신호라고 가정합니다. 그렇지 않으면 그렇게 많지 않습니다.

압축에서 DCT를 사용하는 경우 이미지의 DFT는 대칭이므로 중복 정보를 생성합니다 (한 쪽 미러로 신호를 재생하기에 충분 함). 따라서 DCT의 커널은 DFT에 비해 밀도가 높은 정보를 생성하기 위해 사용됩니다. 저주파 오디오 신호의 경우에도 마찬가지이며 동일한 방식으로 사용할 수 있습니다. DCT의 커널이 신호의 양 측면 (실제 및 허수 부분)을 커버하므로 계수가 더 밀도가 높아지지만 계수는 더 커집니다.

전공은 이미지 처리이므로 이미지 처리에 DCT 및 DFT 개념과 설명을 매핑하려고했습니다. 이미지와 오디오의 한 가지 차이점은 크기 일 수 있습니다. 이미지 처리에서는 크기 (FFT 및 기타 처리 목적을위한 행과 열)를 알고 있습니다. 추가 처리를 위해 오디오 데이터 벡터를 어떻게 든 나눌 필요가 있다고 생각합니다. 데이터를 알지 못하면 번거로울 수 있습니다 (확실하지 않습니다).

다음은 웹에서 가져온 이미지이지만, 내가 가져간 위치에 적어 놓지 않은 경우 위키피디아 일 수 있습니다.;

이미지 처리

보다시피, 변환 된 이미지는 DCT에서 아무런 문제없이 크기 스펙트럼으로 표현됩니다. 더 작고 밀도가 높은 방식으로 계수의 크기를 살펴보십시오. DFT의 두 배보다 큽니다. DFT는 대칭이므로 두 개로 나눌 수 있습니다. 한 부분은 중복됩니다. 그리고 DCT가 정보를 저장할 수있는 또 하나의 것은 DFT의 절반이 아니라 거의 DFT의 1/4입니다. 이는 일반적으로 DCT가 이미지에서 DFT를 극복하는 경우입니다.


FFT는 X와 Y 차원에서 중복되므로 4/4로 나눌 수 없습니까?
endolith

FFT에 더 많은 정보가 있고 DCT에 더 많은 0이있는 것처럼 보이는 이유는 무엇입니까?
endolith

첫 번째 질문은 이해가되지 않습니다. X 및 Y 치수는 무엇을 의미합니까? 두 번째 질문은 커널의 차이 때문입니다. DCT에 더 많은 0이 포함되어있는 것처럼 보이지 않고 실제로는 일반 푸리에 변환 (DFT)보다 더 많은 0이 포함되어 있습니다. 이것은 다시 커널에 차이가 있기 때문입니다.
Hephaestus

이미지가 실제 신호이므로 FFT에 중복 정보가 포함되어 있습니다. FFT의 음의 반은 양 차원에서 양의 반의 거울 일뿐입니다.
endolith

0
  • 50 % 중복되는 것은 어떻습니까?

이 질문에서 귀하는 푸리에 또는 스펙트로 그램을 슬라이딩하는 방식으로 현지화 된 블록 처리를 수행하는 것에 대해 생각하고 있음을 이해합니다.

  • DCT를 사용하여 DFT 밀도의 2 배 (빈 간격의 절반)를 가진 크기 스펙트럼을 제공하거나 위상 정보가 손실 될 수 있습니까?

크기 스펙트럼에 대해 말하면 물론 위상의 일부 (복잡한 푸리에 계수의 인수 또는 DCT 계수의 부호) 는 손실됩니다 .

물론 분석을 위해서 단기 푸리에 공식 내부의 윈도우 푸리에 변환 대신에 많은 커널을 연결할 수 있습니다. 멋진 직교 및 창 속성을 가진 다양한 버전의 DCT, 중첩 버전 (LOT, MDCT)은 뒤집을 수도 있습니다 (합성).

오디오에서 (복잡하지 않은) DCT 또는 겹친 버전은 종종 분석, 시작 및 피치 감지에 사용됩니다 (블라인드 소스 분리). 예를 들어 STFT, MDCT 및 A. Liutkus의 Matlab 툴박스가 있습니다. 대형 시간 주파수 분석 도구 상자 (LTFAT)는 도 가지고 :

  • 선형 시간-주파수 스케일로 빠른 TF 변환 : Gabor (STFT), Wilson 및 윈도우 MDCT
  • Gabor 및 WMDCT 도메인의 스파 스 회귀

나는 오디오를 잘 모른다. 그러나 50 % 또는 75 %의 겹침 이 매우 일반적이며 다른 설정을 사용하는 사람은 거의 없습니다. 그러나 "단일 창"시간-주파수 제한을 극복하기 위해 최소 2 개의 창 크기 , 고정 부분 의 긴 하나 , 일시적인 경우 에는 짧은 크기사용 하는 것이 매우 일반적 입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.