피쳐 추출 프로세스에서 푸리에 변환이 두 번 적용되는 이유는 피쳐가 cepstrum이라는 개념을 기반으로하기 때문입니다. Cepstrum은 워드 스펙트럼에서의 재생입니다. 기본적으로 아이디어는 푸리에 변환 (Fourier transform)에 의해 신호를 주파수 영역으로 변환 한 다음 주파수 스펙트럼이 신호 인 것처럼 다른 변환을 수행하는 것입니다.
주파수 스펙트럼은 각 주파수 대역의 진폭과 위상을 설명하지만, cepstrum은 주파수 대역 간의 변동을 특성화합니다. cepstrum에서 파생 된 기능은 주파수 스펙트럼에서 직접 가져온 기능보다 음성을 더 잘 설명합니다.
약간 다른 정의가 있습니다. 원래 cepstrum transform은 Fourier transform-> complex logarithm-> Fourier transform [1]로 정의되었습니다. 또 다른 정의는 푸리에 변환-> 복소수 로그-> 역 푸리에 변환 [2]입니다. 후자의 정의에 대한 동기는 복잡한 신호를 분리하는 능력에있다 (인간의 말은 종종 흥분과 성대의 컨볼 루션으로 모델링된다).
음성 인식 시스템에서 잘 작동하는 것으로 널리 알려진 선택은 주파수 영역 (참조하는 멜 비닝)에서 비선형 필터 뱅크를 적용하는 것입니다 [3]. 특정 알고리즘은 푸리에 변환-> 제곱 크기-> 멜 필터 뱅크-> 실제 로그-> 이산 코사인 변환으로 정의됩니다.
여기서 실제 값 입력의 경우 DFT의 실수 부분이 일종의 DCT이므로 DCT를 두 번째 변환으로 선택할 수 있습니다. DCT가 선호되는 이유는 출력이 거의 역 상관되기 때문입니다. 역 상관 피쳐는 대각선 공분산 행렬을 사용하여 가우스 분포로 효율적으로 모델링 할 수 있습니다.
[1] Bogert, B., Healy, M. 및 Tukey, J. (1963). 메아리에 대한 시계열의 고주파수 분석 : Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum 및 Saphe Cracking. 시계열 분석 심포지엄 진행, p. 209-243.
[2] Oppenheim, A. 및 Schafer, R. (1968). 음성 동형 분석. 오디오 및 전자 음향에 관한 IEEE 거래 16, p. 221-226.
[3] Davis, S. 및 Mermelstein, P. (1980). 지속적으로 말하는 문장에서 단음절 단어 인식에 대한 파라 메트릭 표현의 비교. 음향, 음성 및 신호 처리에 관한 IEEE 거래 28, p. 357-366.