MP3를 텍스트로 변환하는 음성 인식 앱?


27

오디오를 텍스트로 변환 할 수있는 응용 프로그램을 아는 사람이 있습니까? 우분투 12.04 LTS를 실행 중입니다.


나는 그것이 음성 텍스트라고 가정합니다. 그 텍스트는 어떤 언어입니까?
Martin Ueding

음성 텍스트는 간단한 영어로되어 있습니다.
Kopano

답변:


21

사용할 수있는 소프트웨어는 CMUSphinx 입니다. 다른 답변에서 제안한 것과 달리 Julius는 모델이 필요하기 때문에 적합하지 않습니다. Julius에서는 큰 어휘 음성 인식 모델을 사용할 수 없습니다.

pocketsphinx 를 사용 하여 오디오 파일을 변환 할 수 있습니다 . 이 두 명령은 작업을 수행해야합니다. 먼저 파일을 필요한 형식으로 변환 한 다음 인식합니다.

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

런 포켓

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

결과는 result.txt에 저장됩니다.


또한,이 답변에 추가로, 모두의 멋진 데모있다 speech recognitionvoice command도구는 여기 : youtube.com/...은
Daithí

시스템에 음향 모델을 어떻게 추가합니까?
jarno

"시스템에 추가"와 같은 것은 없습니다
Nikolay Shmyrev

@NikolayShmyrev pocketsphinx_continuous가 찾을 수 있도록 어디에서 포장을 풀어야합니까?
jarno

4
우분투 14.04의 유니버스 저장소에 pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj 및 pocketsphinx-lm-en-hub4 패키지를 설치했습니다. 그런 다음 pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log일했습니다. 아마도 최적의 패키지는 아니지만 리포지토리에서 찾을 수있는 가장 일치하는 패키지 일 수 있습니다.
jarno 2019

12

나는 이것이 오래되었다는 것을 알고 있지만 Nikolay의 답변을 확장하고 미래에 누군가를 시간을 절약하기 위해 Pocketsphinx의 최신 버전을 사용하려면 github 또는 sourceforge 저장소에서 컴파일해야합니다 (확실하지 않음) 더 최신 상태로 유지). -j8은 가능한 경우 8 개의 개별 작업을 병렬로 실행 함을 의미합니다. 더 많은 CPU 코어가 있으면 수를 늘릴 수 있습니다.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

그런 다음 https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ 에서 최신 버전 cmusphinx-en-us-....tar.gzen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

그런 다음 Nikolay의 답변에서 단계를 진행할 수 있습니다.

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

스핑크스는 잘 작동합니다. 나는 텍스트를 읽을 수있는 버전으로 만들기 위해 그것에 의존하지는 않지만 특정 인용문을 찾고 있다면 검색 할 수있을 정도로 충분합니다. 와일드 카드를 허용하고 정확한 검색 표현식을 요구하지 않는 Xapian ( http://www.lesbonscomptes.com/recoll/ ) 과 같은 검색 알고리즘을 사용하는 경우 특히 효과적 입니다.

이것이 도움이되기를 바랍니다.


4
모든 것이 매력처럼 작동하지만 제 경우에는 pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib-------> 를 수정하기 위해 다음 명령을 실행해야했습니다.export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

우분투 소프트웨어 센터를 열고 Julius를 검색하여 음성을 텍스트로 변환하려고합니다.

기술

"Julius"는 음성 관련 연구자 및 개발자를위한 고성능 2 패스 대형 어휘 연속 음성 인식 (LVCSR) 디코더 소프트웨어입니다.

또는 소프트웨어 센터에없는 다른 옵션은 Simon입니다.

... 오픈 소스 음성 인식 프로그램이며 마우스와 키보드를 대체합니다.

참조 링크

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.