Linux 용으로 적합한 음성 인식 소프트웨어가 있습니까?

49

질문의 짧은 버전 : Linux에서 실행되며 적절한 정확성과 유용성을 갖춘 음성 인식 소프트웨어를 찾고 있습니다. 모든 라이센스와 가격은 괜찮습니다. 텍스트를 지시하고 싶기 때문에 음성 명령으로 제한되어서는 안됩니다.

자세한 내용은:

다음을 만족스럽게 시도했습니다.

CMU 스핑크스
CVoiceControl
귀
줄리어스
Kaldi (예 : Kaldi GStreamer 서버 )
IBM ViaVoice (Linux에서 실행되었지만 몇 년 전에 중단됨)
NICO ANN 툴킷
OpenMindSpeech
RWTH ASR
외침
silvius (칼디 음성 인식 툴킷에 구축)
사이먼은 듣는다
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + 잠자리 + damselfly
https://github.com/DragonComputer/Dragonfire : 음성 명령 만 허용

위에서 언급 한 모든 기본 Linux 솔루션은 정확도와 유용성이 떨어집니다 (또는 일부는 자유 텍스트 받아쓰기를 허용하지 않고 음성 명령 만 허용 함). 정확도가 낮다는 것은 다른 플랫폼에서 아래에 언급 한 음성 인식 소프트웨어보다 훨씬 낮은 정확도를 의미합니다. Wine + Dragon NaturallySpeaking에 관해서는 내 경험상 계속 충돌하고 있으며 불행히도 그러한 문제가있는 유일한 사람은 아닙니다.

Microsoft Windows에서는 Dragon NaturallySpeaking을 사용하고, Apple Mac OS XI에서는 Apple Dictation과 DragonDictate를 사용하고, Android에서는 Google 음성 인식을 사용하고, iOS에서는 내장 Apple 음성 인식을 사용합니다.

바이두 연구 발표 어제 코드를 사용하여 음성 인식 라이브러리에 대한 연결주의 시간적 분류 토치 구현합니다. 아래 스크린 샷 에서 볼 수 있듯이 Gigaom의 벤치 마크 는 고무적이지만, 일부 코딩 (및 대규모 교육 데이터 세트)없이 사용할 수있는 좋은 래퍼는 없습니다.

알파 오픈 소스 프로젝트가 몇 가지 있습니다 :

https://github.com/mozilla/DeepSpeech (Mozilla Vaani 프로젝트의 일부 : http://vaani.io ( 거울 ))
https://github.com/pannous/tensorflow-speech-recognition
Dragon NaturallySpeaking을 사용하여 Linux 시스템을 제어하는 시스템 인 Vox : https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo(Interspeech 2018에서 언급 한 Google에서 출시)

한 컴퓨터에서 Dragonfly를 통해 음성 인식을 통해 다른 컴퓨터로 이벤트를 보낼 수있는 Aenea에 대해 알고 있지만 대기 시간이 약간 있습니다.

또한 음성 인식을위한 Linux 옵션을 탐색하는 다음 두 가지 대화에 대해서도 알고 있습니다.

2016-열한 번째 희망 : 오픈 소스 음성 인식을 통한 음성 코딩 (David Williams-King)
2014-Pycon : Python을 사용하여 음성으로 코딩 (Tavis Rudd)

software-rec speech-recognition

— 프랭크 데논 코트
소스

2

"만족스럽지 않은"내용에 대한 자세한 내용은 흥미롭지 만 일반적인 게시 주제를 발전시킬 수 있습니다. 예를 들어 "Wine + Dragon NaturallySpeaking"조합에 대해 불만족스러운 점은 무엇입니까? (Windows 환경을 어떻게 복제하지

— 못했

1

@Theophrastus 기본적으로 모든 기본 Linux 솔루션은 정확도와 유용성이 떨어집니다. 정확도가 낮다는 것은 다른 플랫폼에서 언급 한 음성 인식 소프트웨어보다 훨씬 낮은 정확도를 의미합니다. Wine + Dragon NaturallySpeaking에 관해서는, 내 경험상 계속 충돌하고 있으며, 불행히도 그러한 문제가있는 유일한 사람은 아닙니다 ( appdb.winehq.org/… )

— Franck Dernoncourt

1

나는 이것을 시도하지 않았지만 누군가가 유용하다고 생각하는 경우 : github.com/Uberi/speech_recognition and jasperproject.github.io and github.com/benoitfragit/google2ubuntu

— Hatshepsut

명령 줄 도구가있는 이러한 소프트웨어 중 하나가 있습니까? xdotool ( github.com/jordansissel/xdotool ) 또는 xsendkey ( github.com/kyoto/sendkeys ) 와 같은 키 누르기 및 mousemove 도구에 음성 인식을 결합하는 것이 매우 흥미로울 것 입니다.

— baptx

13

지금은 안드로이드 스마트 폰에서 Google 음성 인식과 함께 KDE Connect를 사용하여 실험하고 있습니다.

KDE Connect를 사용하면 Android 장치를 Linux 컴퓨터의 입력 장치로 사용할 수 있습니다 (다른 기능도 있음). 스마트 폰 / 태블릿의 Google Play 스토어에서 KDE 연결 앱을 설치하고 Linux 컴퓨터에 kdeconnect 및 indicator-kdeconnect를 모두 설치해야합니다. 우분투 시스템의 경우 설치는 다음과 같습니다.

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

이 설치의 단점은 KDE 데스크톱 환경을 사용하지 않는 경우 필요하지 않은 많은 KDE 패키지를 설치한다는 것입니다.

Android 기기를 컴퓨터와 페어링하면 (동일한 네트워크에 있어야 함) Android 키보드를 사용한 다음 마이크를 클릭 / 눌러 Google 음성 인식을 사용할 수 있습니다. 말하면 Linux 컴퓨터에서 커서가 활성화 된 위치에 텍스트가 나타나기 시작합니다.

결과적으로, 나는 현재 일부 기술 천체 물리학 문서를 작성하고 있으며 Google 음성 인식은 일반적으로 읽지 않는 전문 용어로 어려움을 겪고 있기 때문에 약간 섞여 있습니다. 구두점이나 적절한 대문자를 알아내는 것도 잊지 마십시오.

— 쇼크 버너
소스

4

현재 는 Linux에서 음성 노트북 만 작동합니다.

— 알렉세이
소스

2

고맙지 만 Chrome 브라우저에서만 작동합니다.

— Franck Dernoncourt

3

유용한 음성 대 텍스트 (dictation) 프로그램을 검색하는 또 하나의 Linuxer로서 speechpad.pw를 살펴 보았습니다.

그것은 내 모국어를 잘 인식합니다
빠르고 안정적으로 작동합니다

단점 :

물론 Google의 독점적이고 폐쇄적 인 소프트웨어입니다
Google 서비스는 사용자가 말하는 모든 단어를 듣고 처리하며 저장합니다.
오디오 및 텍스트는 Google에서 처리하고 분명히 저장합니다.
speechpad.pw는 월간 / 분기 별 / 연간 구독 요금이 필요합니다
speechpad.pw는 Chrome 브라우저의 애드온으로 만 실행되며 다른 브라우저는 없습니다.

따라서 speechpad.pw는 매우 독점적이며 비공개 소스이며 Google에 바인딩되어 있으며 우리는 모두 잠들지 않는 메타 데이터, 개인 정보 및 개인 콘텐츠 수집기로 알려져 있습니다.

음성 인식 자체가 아주 잘 작동하지만 지금까지 본 것보다 훨씬 나아지지만 이러한 단점은 나를 위해 응용 프로그램이 아닙니다.

— 너무
소스

고마워, 특히 단점은 크롬 브라우저에서만 작동한다는 점입니다.

— Franck Dernoncourt

1

Chrome에서 Google 문서를 사용하고 "도구"» "음성 입력 ..."옵션을 사용할 수 있습니다. 아마 정확히 같은 음성 인식 소프트웨어이지만 무료입니다. 그런 다음 문서의 결과를 텍스트가 필요한 곳에 붙여 넣습니다.

— Alexis Wilke

2

Chrome 앱 "VoiceNote II"( http://voicenote.in/ )가 Xubuntu 16.04 시스템에서 제대로 작동합니다. 음성 훈련이 필요 없으며 설정이 간단했습니다. 한 번의 검색으로, 한 번의 클릭으로 설치, 한 번의 클릭으로 바로 가기를 작성하고 데스크탑으로 바인드하십시오.

— 인디 기술 수정
소스

감사합니다. Chrome에서만 작동합니다.

— Franck Dernoncourt

0

휴대 전화 나 태블릿에서 드래곤을 사용한 다음 텍스트를 자신에게 이메일로 보내는 것이 좋습니다. 그것은 드래그하지만 작동하고 매우 정확합니다. 이를 위해 Linux를 사용한다고 주장하면 두 번째 디스플레이를 사용하면 훨씬 쉽게 복사하고 붙여 넣을 수 있습니다.

나는 이것을 시도하지 않았지만 태블릿 / 전화에서 dragon으로 Python Bluetooth Chat 프로그램을 사용하거나 조정할 수 있습니다. 받아쓰기 입력을 지원할 수있는 모바일 장치 용 원격 키보드 앱이있을 수도 있습니다.

나는 더 확실한 무언가를 실험하고 당신에게 돌아 오려고 노력할 것이다.

— 사용자 273470
소스

0

KD Connect 앱을 사용하고 있습니다. 그것은 매우 효과적으로 작동하고 있습니다! 책상 위의 전화기와 대화하는 동안 모니터를 계속 주시 할 수 있습니다. 유일한 단점은 이것이 Google 키보드를 통해 수행된다는 것입니다. 무료, 네이티브 또는 오픈 소스가 아닙니다.이 의견은 유형을 수정하지 않고 게시되었습니다.

— 조쉬 레빈
소스

-2

Linux 응용 프로그램에서 음성을 텍스트로 사용할 수 있습니다. 이 응용 프로그램은 32 또는 64 비트 Linux 용 Google Speech Api 및 이진 통합 모듈을 사용합니다. Ubuntu에서 speechpad.pw 도구 사용에 대한 간단한 프레젠테이션을 볼 수 있습니다

— 파벨 포포프
소스

1

OP는 음성 텍스트 엔진을 찾고 있습니다. STT 엔진 주위 의 웹 UI 래퍼 입니다.

— Cerin