이것은 주로 기존 음성 인식 시스템의 노이즈 감소를 위해 노력하고 있기 때문에 한동안 관심을 끌었던 질문입니다.
소음 감소 기술에 관한 대부분의 논문은 사람이 말을 더 잘 이해할 수있게하거나 "음질"과 같은 모호한 용어를 개선하는 방법에 초점을 맞추고있는 것 같습니다.
이와 같은 기준을 사용하여 시끄러운 음성 신호를 사람이 쉽게들을 수있는 필터를 식별 할 수 있습니다. 그러나 음성 인식 시스템의 정확성을 향상시키기 위해 음성 신호를 평가하려고 할 때 이러한 기준을 간단히 적용 할 수 있는지 잘 모르겠습니다.
나는이 차이에 대해 논의 할 논문을 실제로 찾지 못한다. 음성 명료도 및 음성 품질은 음성 인식 시스템의 정확성과 관련이 있습니까? 예를 들어, 원래의 깨끗한 음성이 제공되는 경우, 음성 인식 시스템에 대해 잡음이 제거 된 음성 신호가 어떻게 "좋은"지를 평가할 수있는 객관적인 수단이 있습니까? 아니면 잡음 제거 기술이 얼마나 좋은지 알아 내고, 음성 인식 시스템을 노이즈 제거 된 데이터로 훈련시키고 정확성을 보는 유일한 방법입니까?
누군가가 올바른 방향으로 나를 가리킬 수 있거나 이것에 대해 토론 할 수있는 논문을 줄 수 있다면 기쁠 것입니다. 미리 감사드립니다!