음성 인식을위한 노이즈 감소는 인간에게 음성을 "명료하게"만들도록하는 노이즈 감소와 어떻게 다릅니 까?

이것은 주로 기존 음성 인식 시스템의 노이즈 감소를 위해 노력하고 있기 때문에 한동안 관심을 끌었던 질문입니다.

소음 감소 기술에 관한 대부분의 논문은 사람이 말을 더 잘 이해할 수있게하거나 "음질"과 같은 모호한 용어를 개선하는 방법에 초점을 맞추고있는 것 같습니다.

이와 같은 기준을 사용하여 시끄러운 음성 신호를 사람이 쉽게들을 수있는 필터를 식별 할 수 있습니다. 그러나 음성 인식 시스템의 정확성을 향상시키기 위해 음성 신호를 평가하려고 할 때 이러한 기준을 간단히 적용 할 수 있는지 잘 모르겠습니다.

나는이 차이에 대해 논의 할 논문을 실제로 찾지 못한다. 음성 명료도 및 음성 품질은 음성 인식 시스템의 정확성과 관련이 있습니까? 예를 들어, 원래의 깨끗한 음성이 제공되는 경우, 음성 인식 시스템에 대해 잡음이 제거 된 음성 신호가 어떻게 "좋은"지를 평가할 수있는 객관적인 수단이 있습니까? 아니면 잡음 제거 기술이 얼마나 좋은지 알아 내고, 음성 인식 시스템을 노이즈 제거 된 데이터로 훈련시키고 정확성을 보는 유일한 방법입니까?

누군가가 올바른 방향으로 나를 가리킬 수 있거나 이것에 대해 토론 할 수있는 논문을 줄 수 있다면 기쁠 것입니다. 미리 감사드립니다!

— 말론 플
소스

나는이 차이에 대해 논의 할 논문을 실제로 찾지 못한다.

주제에 관한 모든 책이 있습니다.

강력한 자동 음성 인식 1 판

음성 명료도 및 음성 품질은 음성 인식 시스템의 정확성과 관련이 있습니까?

일반적으로 아니요, 일반적으로 노이즈 감소는 예측할 수없는 방식으로 기능을 손상시키고 음성 인식 정확도를 떨어 뜨립니다.

예를 들어, 원래의 깨끗한 음성이 제공되는 경우, 음성 인식 시스템에 대해 잡음이 제거 된 음성 신호가 어떻게 "좋은"지를 평가할 수있는 객관적인 수단이 있습니까? 아니면 잡음 제거 기술이 얼마나 좋은지 알아 내고, 음성 인식 시스템을 노이즈 제거 된 데이터로 훈련시키고 정확성을 보는 유일한 방법입니까?

둘째. 또한 기능 기반 노이즈 감소는 실제로 스펙트럼에서 중요한 정보를 모두 제거하므로 클린 시스템의 정확도를 복구 할 수 없습니다. 이러한 이유로 현대적인 접근 방식은 노이즈 제거 알고리즘을 미리 사용하는 대신 노이즈가 많은 데이터에 대해 다중 스타일 교육을 수행하는 것입니다. 더 정확한 인식으로 끝납니다.

— 니콜라이 쉬미 레브
소스

답변 주셔서 감사합니다. 나는 올바른 논문을 찾지 않았다고 생각합니다. 그 책을 살펴 볼게요.

— marlonfl

좋아, 논문을 원한다면 CHIME-4 챌린지 결과를 확인할 수 있습니다. 대부분 강력한 ASR의 최신 기술입니다.

— Nikolay Shmyrev