MFCC 추출 과정에서 DCT 단계를 어떻게 해석합니까?


20

대부분의 오디오 처리 작업에서 가장 많이 사용되는 변환 중 하나는 MFCC (Mel-frequency cepstral coefficients) 입니다.

나는 대부분 MFCC의 배후에있는 수학을 알고있다. 나는 필터 뱅크 단계와 Mel 주파수 스케일링을 모두 이해한다.

내가 얻지 못하는 것은 DCT (Discrete Cosine Transform) 단계입니다.이 단계에서 어떤 종류의 정보를 얻습니까? 이 단계의 시각적 표현은 무엇입니까?


1
나는 MFCC에 대한 간단한 설명이나 최소한 링크를 추가 할 것이다 : en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient
일종의 로봇

답변:


16

DCT를 압축 단계로 생각할 수 있습니다. 일반적으로 MFCC에서는 DCT를 취한 후 처음 몇 개의 계수 만 유지합니다. 이것은 기본적으로 DCT가 JPEG 압축에 사용되는 것과 같은 이유입니다. DCT는 경계 조건이 이러한 유형의 신호에서 더 잘 작동하기 때문에 선택됩니다.

DCT를 푸리에 변환과 대조해 봅시다. 푸리에 변환은 정수주기의 정현파로 구성됩니다. 이는 모든 푸리에 기본 기능이 동일한 값으로 시작하고 끝나는 것을 의미합니다. 서로 다른 값으로 시작하고 끝나는 신호를 제대로 나타내는 것은 아닙니다. 푸리에 변환은 주기적으로 연장된다는 것을 기억하십시오. 용지에 신호가 있다고 생각되면 푸리에 변환은 왼쪽과 오른쪽이 만나도록 해당 시트를 원통으로 롤링하려고합니다.

음의 기울기가있는 선 (거의 전형적인)과 비슷한 모양의 스펙트럼을 생각해보십시오. 푸리에 변환은이 모양에 맞도록 많은 다른 계수를 사용해야합니다. 반면, DCT에는 정수가 절반 인주기의 코사인이 있습니다. 예를 들어, 음의 기울기를 갖는 선과 모호하게 보이는 DCT 기저 함수가 있습니다. 마침표 확장 (대신 짝수 확장)을 가정하지 않으므로 해당 모양을 더 잘 맞출 수 있습니다.

자 이것을 합치 자. Mel-frequency 스펙트럼을 계산 한 후에는 사람의 청각 작동 방식과 유사한 방식으로 민감한 스펙트럼을 나타냅니다. 이 형태의 일부 측면은 다른 측면보다 관련성이 있습니다. 일반적으로 스펙트럼에서 잡음이있는 미세한 디테일보다 더 큰 스펙트럼 모양이 더 중요합니다. 스펙트럼 모양을 따르기 위해 부드러운 선을 그리는 것을 상상할 수 있으며, 그리는 부드러운 선이 신호에 대해 거의 알려줄 수 있습니다.

DCT를 취하고 더 높은 계수를 버릴 때이 스펙트럼 모양을 취하고이 매끄러운 모양을 나타내는 데 더 중요한 부분 만 유지합니다. 푸리에 변환을 사용했다면 중요한 정보를 낮은 계수로 유지하는 것이 좋지 않습니다.

MFCC를 기계 학습 알고리즘에 기능으로 공급하는 것에 대해 생각할 경우, 이러한 하위 계수는 스펙트럼 형태의 일부 간단한 측면을 나타 내기 때문에 폐기하는 상위 계수는 노이즈와 유사하기 때문에 좋은 기능을 만듭니다. 훈련하는 것이 중요하지 않습니다. 또한 Mel 스펙트럼 크기 자체에 대한 교육은 아마도 다른 주파수에서의 특정 진폭이 스펙트럼의 일반적인 형태보다 덜 중요하기 때문에 아마 좋지 않을 것입니다.


관련 질문에 대한이 답변 을 읽는 것이 흥미 롭습니다 .
Eric Platon

8

MFCC를 이해하는 열쇠는 링크 된 기사에서 문장의 시작 부분에 있습니다.

그것들은 오디오 클립의 두근 두근 표현에서 파생됩니다 ...

된 MFCC는 스펙트럼의-A- 같다 로그 -spectrum의 켑 스트 럼 .

엑스()

기음()=에프1(로그(|에프(엑스())|2)

에프에프1

cepstrum이 깔끔한 이유는 삽입 된 로그 연산 이 원래 신호의 컨볼 루션이 cepstrum에 간단한 추가로 표시되기 때문 입니다.

리프팅 이 표준 cepstrum만큼 직접적 이지 는 않지만 그 이점은 MFCC 에 적용됩니다.

MFCC가 다른 경우에는 역 푸리에 변환 대신 이산 코사인 변환 (DCT)을 최종 변환으로 사용하는 것입니다.

DCT가 푸리에 변환에 비해 장점은 결과 계수가 실제 값 이되어 후속 처리 및 저장이 쉬워진다는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.