뇌 평균 정규화


15

누구든지 Cepstral Mean Normalization에 대해 설명 할 수 있습니까, convolution의 등가 속성이 어떻게 영향을 미칩니 까? MFCC 기반 스피커 인식에서 CMN을 수행해야합니까? MFCC에 컨볼 루션 속성이 필요한 이유는 무엇입니까?

나는이 신호 처리에 매우 익숙하다. 도와주세요


필터 뱅크를 사용하지 않고 주파수를 멜 스케일로 직접 변환하면 MFCC 프로세스에서 작동합니까?
purple

답변:


18

사물을 명확하게하기 위해이 속성은 기본이 아니라 중요 합니다. 스펙트럼 계산에 DFT 대신 DCT를 사용할 때의 근본적인 차이입니다.

왜 우리는 Cepstral Mean Normalization을 하는가

스피커 인식에서 모든 채널 효과 (보컬, 오디오 경로, 룸 등의 임펄스 응답)를 제거하려고합니다. 입력 신호가 이고 채널 임펄스 응답이 h [ n ]으로 제공되는 경우, 기록 된 신호는 다음 두 가지의 선형 컨벌루션입니다.엑스[]h[]

와이[]=엑스[]h[]

푸리에 변환을 통해 다음을 얻을 수 있습니다.

와이[에프]=엑스[에프]H[에프]

FT의 컨볼 루션 곱셈 등가 특성으로 인해이 단계에서 FFT의 중요한 특성입니다 .

cepstrum 계산의 다음 단계는 스펙트럼의 로그를 취하는 것입니다.

와이[]=로그와이[에프]=로그(엑스[에프]H[에프])=엑스[]+H[]

로그()=로그+로그

Cepstral Mean Normalization이란 무엇입니까?

이제 우리는 cepstral domain에서 모든 convolutional distortion이 더해짐을 알 수 있습니다. 모든 음성이 고정되어 있고 (성대와 채널 응답이 변하지 않기 때문에 강력한 가정이라고 가정) 음성의 고정 부분은 무시해도 좋습니다. 우리는 모든 i 번째 프레임에 대해 다음과 같은 사실을 알 수 있습니다.

와이나는[]=H[]+엑스나는[]

우리가 얻는 모든 프레임의 평균을 취함으로써

1나는와이나는[]=H[]+1나는엑스나는[]

차이점 정의 :

아르 자형나는[]=와이나는[]1제이와이제이[]=H[]+엑스나는[](H[]+1제이엑스제이[])=엑스나는[]1제이엑스제이[]

채널 왜곡이 제거 된 신호로 끝납니다. 위의 모든 방정식을 간단한 영어로 작성 :

  • cepstrum을 계산
  • 각 계수에서 평균을 뺍니다
  • 선택적으로 뺄셈과 달리 Cepstral Mean Normalization을 수행하기 위해 분산으로 나눕니다.

Cepstral Mean Normalization이 필요한가요?

특히 단일 환경에서 한 명의 스피커를 인식하려고 할 때 반드시 필요한 것은 아닙니다. 실제로 추가 노이즈로 인한 오류가 발생하기 때문에 결과가 저하 될 수 있습니다.

와이[]=엑스[]h[]+[]

와이[에프]=엑스[에프]H[에프]+[에프]

로그와이[에프]=로그[엑스[에프](H[에프]+[에프]엑스[에프])]=로그엑스[에프]+로그(H[에프]+[에프]엑스[에프])

열악한 SNR 조건에서 표시된 용어는 추정을 능가 할 수 있습니다.

CMS를 수행 할 때 일반적으로 추가 백분율을 거의 얻을 수 없습니다. 계수의 미분에서 얻은 성능 향상에 추가하면 인식률이 크게 향상됩니다. 최종 결정은 특히 음성 인식 시스템의 개선에 사용되는 다른 방법이 많이 있다는 결정에 달려 있습니다.


@mun : 도움이되어 기쁘다. 질문에 대한 답변을 수락 한 것으로 표시하여 새로운 사용자 제한을 제거 할 수없는 이유는 무엇입니까?
jojek

@mun : 축하합니다! 이제 더 많은 링크를 게시하고 질문 및 답변 + 투표 게시물에 투표하십시오.
jojek

고마워 @ jojek .. 나는이 모든 매우 새로운하지만 내 문제가 해결되어 기쁘게 생각합니다.
mun December

@mun : 그럼 나는 당신이 빠른 여행을
jojek

마지막 대답으로, "계수의 파생으로 인한 성능 향상에 추가"가 실제로 무엇을 의미하는지 알 수 없습니다. 간단한 설명을 해 줄 수 있습니까? 감사합니다
Shuai Wang
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.