이 문제에 대한 답을 찾고있는 동안,이 게시판 은 Stack Overflow 에서이 질문을 게시하기로 결정했습니다 .
오디오 세그먼트와 사람의 음성 사이의 유사성을 결정하는 방법을 찾고 있는데, 이는 숫자로 표현됩니다.
나는 꽤 많이 검색했지만 지금까지 찾은 것 (아래에 자세히 설명되어 있음)은 내가 필요한 것에 실제로 맞지 않습니다.
한 가지 방법은 음성 인식 소프트웨어를 사용하여 오디오 세그먼트에서 단어를 얻는 것입니다. 그러나이 방법은 "유사한"오디오가 사람의 언어와 얼마나 유사한지를 생각 해낼 수 없습니다. 종종 오디오에 단어가 있는지 여부를 알 수 있지만 명확한 단어가 없으면 오디오에 그런 단어가 있다는 것을 알 수 없습니다.
예 : CMU 스핑크스 , 잠자리 , SHoUT보다 유망한 방법을 VAD ( Voice Activity Detection )라고합니다. 그러나 VAD를 사용하는 알고리즘 / 프로그램은 활동 임계 값에 도달했는지 여부와 해당 임계 값 전후에 "유사성"값을 반환하지 않는 경향이 있습니다. 대안 적으로, 많은 사람들은 인간의 말과 유사하지 않고 볼륨 만 찾습니다.
예 : Speex , 리스너 , FreeSWITCH
어떤 아이디어?