사물을 명확하게하기 위해이 속성은 기본이 아니라 중요 합니다. 스펙트럼 계산에 DFT 대신 DCT를 사용할 때의 근본적인 차이입니다.
왜 우리는 Cepstral Mean Normalization을 하는가
스피커 인식에서 모든 채널 효과 (보컬, 오디오 경로, 룸 등의 임펄스 응답)를 제거하려고합니다. 입력 신호가 이고 채널 임펄스 응답이 h [ n ]으로 제공되는 경우, 기록 된 신호는 다음 두 가지의 선형 컨벌루션입니다.x [ n ]h [ n ]
와이[ n ] = x [ n ] ⋆ h [ n ]
푸리에 변환을 통해 다음을 얻을 수 있습니다.
와이[ f] = X[ f] ⋅ H[ f]
FT의 컨볼 루션 곱셈 등가 특성으로 인해이 단계에서 FFT의 중요한 특성입니다 .
cepstrum 계산의 다음 단계는 스펙트럼의 로그를 취하는 것입니다.
와이[ q] = 로그와이[ f] = 로그( X[ f] ⋅ H[ f] ) = X[ q] + H[ q]
로그( a b ) = 로그+ 로그비큐
Cepstral Mean Normalization이란 무엇입니까?
이제 우리는 cepstral domain에서 모든 convolutional distortion이 더해짐을 알 수 있습니다. 모든 음성이 고정되어 있고 (성대와 채널 응답이 변하지 않기 때문에 강력한 가정이라고 가정) 음성의 고정 부분은 무시해도 좋습니다. 우리는 모든 i 번째 프레임에 대해 다음과 같은 사실을 알 수 있습니다.
와이나는[ q] = H[ q] + X나는[ q]
우리가 얻는 모든 프레임의 평균을 취함으로써
1엔∑나는와이나는[ q] = H[ q] + 1엔∑나는엑스나는[ q]
차이점 정의 :
아르 자형나는[ q]= Y나는[ q] - 1엔∑제이와이제이[ q]= H[ q] + X나는[ q] - ( H[ q] + 1엔∑제이엑스제이[ q] )= X나는[ q] - 1엔∑제이엑스제이[ q]
채널 왜곡이 제거 된 신호로 끝납니다. 위의 모든 방정식을 간단한 영어로 작성 :
- cepstrum을 계산
- 각 계수에서 평균을 뺍니다
- 선택적으로 뺄셈과 달리 Cepstral Mean Normalization을 수행하기 위해 분산으로 나눕니다.
Cepstral Mean Normalization이 필요한가요?
특히 단일 환경에서 한 명의 스피커를 인식하려고 할 때 반드시 필요한 것은 아닙니다. 실제로 추가 노이즈로 인한 오류가 발생하기 때문에 결과가 저하 될 수 있습니다.
와이[ n ] = x [ n ] ⋆ h [ n ] + w [ n ]
와이[ f] = X[ f] ⋅ H[ f] + W[ f]
로그와이[ f] = 로그[ X[ f] ( H[ f] + W[ f]엑스[ f]) ] =로그엑스[ f] + 로그( H[f] +W[f]엑스[f])
열악한 SNR 조건에서 표시된 용어는 추정을 능가 할 수 있습니다.
CMS를 수행 할 때 일반적으로 추가 백분율을 거의 얻을 수 없습니다. 계수의 미분에서 얻은 성능 향상에 추가하면 인식률이 크게 향상됩니다. 최종 결정은 특히 음성 인식 시스템의 개선에 사용되는 다른 방법이 많이 있다는 결정에 달려 있습니다.