질문의 짧은 버전 : Linux에서 실행되며 적절한 정확성과 유용성을 갖춘 음성 인식 소프트웨어를 찾고 있습니다. 모든 라이센스와 가격은 괜찮습니다. 텍스트를 지시하고 싶기 때문에 음성 명령으로 제한되어서는 안됩니다.
자세한 내용은:
다음을 만족스럽게 시도했습니다.
- CMU 스핑크스
- CVoiceControl
- 귀
- 줄리어스
- Kaldi (예 : Kaldi GStreamer 서버 )
- IBM ViaVoice (Linux에서 실행되었지만 몇 년 전에 중단됨)
- NICO ANN 툴킷
- OpenMindSpeech
- RWTH ASR
- 외침
- silvius (칼디 음성 인식 툴킷에 구축)
- 사이먼은 듣는다
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + 잠자리 + damselfly
- https://github.com/DragonComputer/Dragonfire : 음성 명령 만 허용
위에서 언급 한 모든 기본 Linux 솔루션은 정확도와 유용성이 떨어집니다 (또는 일부는 자유 텍스트 받아쓰기를 허용하지 않고 음성 명령 만 허용 함). 정확도가 낮다는 것은 다른 플랫폼에서 아래에 언급 한 음성 인식 소프트웨어보다 훨씬 낮은 정확도를 의미합니다. Wine + Dragon NaturallySpeaking에 관해서는 내 경험상 계속 충돌하고 있으며 불행히도 그러한 문제가있는 유일한 사람은 아닙니다.
Microsoft Windows에서는 Dragon NaturallySpeaking을 사용하고, Apple Mac OS XI에서는 Apple Dictation과 DragonDictate를 사용하고, Android에서는 Google 음성 인식을 사용하고, iOS에서는 내장 Apple 음성 인식을 사용합니다.
바이두 연구 발표 어제 코드를 사용하여 음성 인식 라이브러리에 대한 연결주의 시간적 분류 토치 구현합니다. 아래 스크린 샷 에서 볼 수 있듯이 Gigaom의 벤치 마크 는 고무적이지만, 일부 코딩 (및 대규모 교육 데이터 세트)없이 사용할 수있는 좋은 래퍼는 없습니다.
알파 오픈 소스 프로젝트가 몇 가지 있습니다 :
- https://github.com/mozilla/DeepSpeech (Mozilla Vaani 프로젝트의 일부 : http://vaani.io ( 거울 ))
- https://github.com/pannous/tensorflow-speech-recognition
- Dragon NaturallySpeaking을 사용하여 Linux 시스템을 제어하는 시스템 인 Vox : https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo(Interspeech 2018에서 언급 한 Google에서 출시)
또한 음성 인식에 대한 최신 상태 및 최근 결과 (서지)를 추적하려는 이러한 시도를 알고 있습니다. 기존 음성 인식 API의 벤치 마크는 물론 입니다.
한 컴퓨터에서 Dragonfly를 통해 음성 인식을 통해 다른 컴퓨터로 이벤트를 보낼 수있는 Aenea에 대해 알고 있지만 대기 시간이 약간 있습니다.
또한 음성 인식을위한 Linux 옵션을 탐색하는 다음 두 가지 대화에 대해서도 알고 있습니다.
- 2016-열한 번째 희망 : 오픈 소스 음성 인식을 통한 음성 코딩 (David Williams-King)
- 2014-Pycon : Python을 사용하여 음성으로 코딩 (Tavis Rudd)