답변:
사용할 수있는 소프트웨어는 CMUSphinx 입니다. 다른 답변에서 제안한 것과 달리 Julius는 모델이 필요하기 때문에 적합하지 않습니다. Julius에서는 큰 어휘 음성 인식 모델을 사용할 수 없습니다.
pocketsphinx 를 사용 하여 오디오 파일을 변환 할 수 있습니다 . 이 두 명령은 작업을 수행해야합니다. 먼저 파일을 필요한 형식으로 변환 한 다음 인식합니다.
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
런 포켓
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
결과는 result.txt에 저장됩니다.
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
일했습니다. 아마도 최적의 패키지는 아니지만 리포지토리에서 찾을 수있는 가장 일치하는 패키지 일 수 있습니다.
나는 이것이 오래되었다는 것을 알고 있지만 Nikolay의 답변을 확장하고 미래에 누군가를 시간을 절약하기 위해 Pocketsphinx의 최신 버전을 사용하려면 github 또는 sourceforge 저장소에서 컴파일해야합니다 (확실하지 않음) 더 최신 상태로 유지). -j8은 가능한 경우 8 개의 개별 작업을 병렬로 실행 함을 의미합니다. 더 많은 CPU 코어가 있으면 수를 늘릴 수 있습니다.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
그런 다음 https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
에서 최신 버전 cmusphinx-en-us-....tar.gz
및en-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
그런 다음 Nikolay의 답변에서 단계를 진행할 수 있습니다.
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
스핑크스는 잘 작동합니다. 나는 텍스트를 읽을 수있는 버전으로 만들기 위해 그것에 의존하지는 않지만 특정 인용문을 찾고 있다면 검색 할 수있을 정도로 충분합니다. 와일드 카드를 허용하고 정확한 검색 표현식을 요구하지 않는 Xapian ( http://www.lesbonscomptes.com/recoll/ ) 과 같은 검색 알고리즘을 사용하는 경우 특히 효과적 입니다.
이것이 도움이되기를 바랍니다.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
-------> 를 수정하기 위해 다음 명령을 실행해야했습니다.export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
우분투 소프트웨어 센터를 열고 Julius를 검색하여 음성을 텍스트로 변환하려고합니다.
기술
"Julius"는 음성 관련 연구자 및 개발자를위한 고성능 2 패스 대형 어휘 연속 음성 인식 (LVCSR) 디코더 소프트웨어입니다.
또는 소프트웨어 센터에없는 다른 옵션은 Simon입니다.
... 오픈 소스 음성 인식 프로그램이며 마우스와 키보드를 대체합니다.
참조 링크
http://julius.sourceforge.jp/en_index.php
speechpad.pw 전사 패널을 사용할 수 있습니다