커맨드 라인을 사용하여 텍스트 음성 변환 출력 방법?

84

명령 줄을 사용하여 입력 한 텍스트에서 음성 출력 을 얻는 방법은 무엇입니까?

간단한 명령을 사용하여 음성 속도, 피치, 음량 등을 변경하는 기능도 있습니다 .

command-line software-recommendation text-to-speech

— 판 디아
소스

의 가능한 중복 I 설치 및 텍스트 음성 변환 소프트웨어를 사용할 수 있습니까?

— 유기농 중독자

125

내림차순 순서에서 인기 :

say 는 GNUstep 음성 엔진을 사용하여 텍스트를들을 수있는 음성으로 변환합니다.
```
sudo apt-get install gnustep-gui-runtime
say "hello"
```

축제 일반 다국어 음성 합성 시스템.

sudo apt-get install festival
echo "hello" | festival --tts

spd-say 는 텍스트 음성 변환 출력 요청을 음성 디스패처로 보냅니다.
```
sudo apt-get install speech-dispatcher
spd-say "hello"
```
espeak 는 다국어 소프트웨어 음성 합성기입니다.
```
sudo apt-get install espeak
espeak "hello"
```

— 실뱅 피노
소스

13

spd-say14.04 이상에 사전 설치된 것으로 보입니다 : releases.ubuntu.com/trusty/…

— Ciro Santilli 新疆改造中心法轮功六四事件

3

또한 sudo pip install gTTS(Google Text to Speech / github.com / pndurette / gTTS )를 사용 gtts-cli "hello" -o hello.mp3하여 파이프 할 수도 mpg123 -있습니다. gtts-cli "why, hello there" | mpg123 -.

— Elijah Lynn

불행히도, spd-say동시에 tts를 동시에 연주 할 수없는 것 같습니다

— phil294

@ElijahLynn이 작동하지 않습니다

— Dims

espeak/ spd-say는 밈에 가장 적합합니다 (다른 사람들은 "meme"이라는 단어를 올바르게 발음 할 수도 없습니다). 백엔드로 spd-say용도 espeak를 알 수있는 것이 가장 좋습니다 (음성은 동일하게 들립니다).

— QwertyChouskie

18

espeak 좋은 작은 도구입니다.

나는 명령 줄에서 놀고있는 것을 좋아합니다. Pulseaudio와 충돌 할 수 있으므로 올바르게 설정하지 않아도되는 긴 버전을 사용하고 있습니다.

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help 읽기 속도, 피치, 음성 등을 보정하는 옵션이 표시됩니다.

메모를 할 때 텍스트 파일로 저장 한 후 다음을 수행하십시오.

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

그런 다음 ffmeg et al을 사용하여 PCM에서 MP3 또는 OGG와 같이 더 관리하기 쉬운 것으로 압축 할 수 있습니다. 그러나 그것은 다른 이야기입니다.

— 올리
소스

1

아주 훌륭하게 말하면 그래픽 사용자 인터페이스를 사용하여 말을 할 수 있습니다.

— Sabacon

14

보낸 사람 man spd-say:

이름
       spd-say-텍스트 음성 변환 출력 요청을 음성 디스패처로 전송

개요
       spd-say [옵션] "일부 텍스트"

기술
       spd-say는 텍스트 음성 변환 출력 요청을 음성 디스패처 프로세스로 전송하여이를 처리하고 결과를 이상적으로 출력합니다.
       오디오 시스템에.

옵션
       -r, --rate
              말하기 속도 설정 (-100과 +100 사이, 기본값 : 0)

       -p,-피치
              연설의 피치를 설정합니다 (-100과 +100 사이, 기본값 : 0)

       -i, --volume
              음성의 음량 (강도)을 설정합니다 (-100과 +100 사이, 기본값 : 0).

따라서 다음 명령을 사용하여 텍스트 음성 변환을 얻을 수 있습니다.

spd-say "<type text>"

전의:

spd-say "Welcome to Ubuntu Linux"

음성 속도, 피치, 음량 등을 설정할 수도 있습니다 . 맨 페이지를 참조하십시오.

— 판 디아
소스

3

spd-say -t female2 "text"견딜 수있게

— 전갈 자리

6

Mbrola는 11.10부터 작동하지 않습니다.

SVOX (pico) 도구는 설치가 쉽고 사용하기 쉬우 며 우분투에서 양질의 음성을 제공합니다. 설치하십시오 :

sudo apt-get install libttspico0 libttspico-utils libttspico-data

"텍스트 읽기"확장자 를 설치하여 LibreOffice를 SVOX (pico) 도구와 함께 사용 하면이 TTS 소프트웨어에 대한 "GUI"를 얻을 수 있습니다.

Tools-Add-on-Read selection ....을 사용 하여 Read Text Extension의 옵션 을 설정 하십시오. 외부 프로그램으로 / usr / bin / python을 사용하십시오. 토큰 (PICO_READ_TEXT_PY)을 포함하는 명령 행 옵션을 선택하십시오.

— 레 오퍼 보
소스

4

파이썬 구글 스피치 :

pip install google_speech

google_speech "Test the hello world"

안드로이드에서 Svox :

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

스 보스 나 노트 :

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

링크-위키 :

음성 합성기의 비교

— 인티 카
소스

1

설치하고 사용하려면 google_speech우분투 18.04 내가 설치 한에 python3-pip와 libsox-fmt-mp3하고 사용 pip3 install google_speech.

— artm

3

그리고 또 다른 gui : gespeaker. 엔진 espeak과 mbrola엔진을 모두 사용합니다 . 또한보다 많은 옵션이 espeak-gui있습니다.

— 루리
소스

3

다음은 FLOSS 솔루션이 아니지만 유용 할 수 있습니다. ( 와인 솔루션입니다),

저는 개인적으로 TTS에 매우 열심입니다. 예를 들어 자주 사용합니다. 나는 절대로 다른 사람들을 고집하지 않을 담화가 담긴 담론을 듣고 (나는 또 다른 커피를 마셔야하기 때문에 ... :)

내가 길을 따라 발견 한 몇 가지 .. 아니면 내가, 내가 길을 따라 발견되지 않은 말을한다 ... 퉁명스럽게 넣어하려면 FOSS의 모든 조각 TTS의 I 해봤 음성 소프트웨어 언더파이므로 반 장기 청취에 적합하지 않은 ...

저는 현재 ATnT의 NaturalVoices를 사용하고 있습니다. 그것은 Windows (아마 Mac)에서만 사용할 수 있지만 wine우분투 에서는 실행되지 않습니다 . NatualVoices의 음질로 얻은 이점과 비교할 때 문제가 발생합니다.

반 감각적 인 청취 경험을 위해 실질적으로 필수적인 것으로 밝혀진 다른 것들은 다음과 같습니다.

이 TTS 프로 가마는 지능적이지 않습니다 (어쩌면 어린 개코 원숭이만큼 지능적 일 수도 있습니다). 그래서 그들은 그들이 얻을 수있는 모든 도움이 필요합니다. 그리고 하나 (그리고 내가 찾은 하나의 독자 프로그램 만 이 이것에 크게 도움이됩니다 .. 응용 프로그램이라고합니다 ReadPlease (2003 Pro)... 그것은 당신이 원하는 대로 발음 할 단어와 단어 그룹을 특별히 수정할 수 있게했습니다 ... 결코 완벽하지는 않지만 전체 프로세스를 사용할 수 있고 사용할 수 없게 만드는 것의 차이를 만들었습니다 ...
내추럴 보이스 (Natural Voices)의 연설은 "괜찮습니다".하지만 약간 지루합니다. 다른 좋은 제품들도 있지만 불행히도 Windows 용입니다.)
그것은 때때로 놀랍게도 .. 그러나 OMG, 처음에는 고통입니다! .. 그래서 # 2는 * 인내심입니다 ... 그리고 당신의 "특별한 단어들"목록을 많이 업데이트합니다 ... 인내심으로, 나는 당신이 (나) 실제로 내 특정 비비의 연설 패턴에 익숙해 졌다는 것을 의미합니다. 그런데 현재 약 3000 개의 단어가 있는데 "인간"소리가 들릴 때 더 이상 울지 않습니다.

3 .. "튀는 공을 따르십시오"... 다시는 목소리가 실제 스피커만큼 좋지 않기 때문에 상황을 명확히해야 할 때가 있습니다. 내가 사용하는 Reader 프로그램에는 어설픈 인터페이스를 사용할 수있는 하나의 기능이 있습니다. "현재 읽고있는 선택"단어 옵션이 있습니다. 화면 중앙 .. 이것은 당신이 방금 놓친 것을 빠르게 다시 읽을 수 있도록 앞뒤로 볼 수 있다는 점에서 매우 중요합니다.

글쎄, 그건 내 경험이야 .. 지금 커피를 만들려고하고 있는데, 커피를 마시면서 어떻게 "읽는지"알기 위해 이것을 듣게 될 것입니다. 오타 (나는 많은 오타를 만듭니다) ...

ATnT NaturalVoices만큼 좋은 점이 Ubuntu 저장소에 표시되면 바로 뛰어들 것입니다.

다음은 Natural Voice 의 일부 샘플에 대한 링크입니다 . "MIke"를 사용합니다.

— 피터 오
소스

3

SVOX pico2wave

그것이 내가 사용하는 것입니다. 자연스럽고 이해하기 쉽고 단위 (m, ° C, kg, ...)를 인식합니다.

여기 pico2wave에 대한 첫 번째 게시물입니다

자연스러운 음성 텍스트 음성?

해야 할 일은 :

Ubuntu Software Center로 이동하여 "pico"를 검색하십시오. "Small Footprint Ling ..."을 사용하여 4 개 또는 5 개의 항목을 찾을 수 있습니다. 설치하십시오.

pico2wave의 가능한 사용법은 첫 번째 게시물에 설명되어 있습니다 (위의 링크를 따르십시오).

안녕

— 사용자
소스

난 당신이 pls는 어떻게 당신의 방법 사용 naturl 달콤한 여성의 목소리를 얻는 말해 줄 수 방법을 사용했다

— user49557을

3

들어는 festival(음성은 나에게 더 자연스러운 것 같다)

sudo apt-get install festival

echo "hello" | festival --tts

피치 및 속도 구성 :

작성 ~/.festivalrc:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100") (Parameter.set 'Audio_Method 'Audio_Command)

참조 http://www.solomonson.com/content/ubuntu-linux-text-speech

업데이트 : 다른 우분투 컴퓨터에서 시도했습니다. 축제와 올바르게 작동하기 위해 영어 음성 엔진 패키지를 설치해야했습니다.

sudo apt-get install festvox-kallpc16k

또한 play함께 제공되는 CLI 명령입니다 sox패키지 :

sudo apt-get install sox

— d9k
소스

2

이미 답변을 수락했지만을 언급 festival하고 싶었 습니다. Ubuntu 포럼 의이 게시물 에는 멋진 음성을 설정하는 방법에 대한 많은 정보가 있습니다.

— 멋진
소스

2

충족 espeak-ng-다국어 소프트웨어 음성 합성기 :

espeak-ng "text to read"
espeak-ng -f "~/file to read"

기본 영어 음성을 사용하지만 다른 언어 및 방언을 사용할 수있는 수많은 다른 음성이 있으며 espeak-ng --voices(모두) 또는 예를 들어 espeak-ng --voices=en(영어) 로 나열 될 수 있습니다 . -v언어 약어 또는 파일 이름 (예 : 스코틀랜드 또는 스와힐리어) 과 함께 설정할 수 있습니다 .

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

-s속도 및 -w출력을 웨이브 파일에 쓰는 등의 다른 옵션이 많이 있습니다. 아래 링크 된 맨 페이지를 참조하십시오.

추가 자료

espeak-ng(“차세대”의 경우“ng”)는 독창적 인 espeak음성 합성기 소프트웨어 의 포크입니다 . Wikipedia 의 History 장을 참조하십시오 . 둘 다 공식 소스에서 패키지를 통해 espeak또는 espeak-ng각각 구입할 수 있습니다 .

— 디저트
소스

0

와인 아래의 Balabolka는 SAPI4 음성과 함께 잘 작동합니다 (Linux 시스템에서는 SAPI5 음성이 감지되지 않습니다). 파일을 열고 읽을 수 있습니다.

Balabolka에 대한 와인의 AppDB 항목에 대한 링크는 다음과 같습니다. https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859

— 헤만 쿠마르 가라치
소스

0

gTTS 도구는 텍스트에서 오디오 파일을 생성하는 데 유용합니다. Google 번역의 텍스트 음성 변환 API를 사용하고 mp3 파일을 생성합니다. 설치에
사용되는 경우 pipMiniconda를 설치 한 다음 gTTS를 설치할 conda수있는 환경을 만드는 데 사용하는 것이 좋습니다 . Miniconda는 여기에서 다운로드 할 수 있습니다.

https://docs.conda.io/en/latest/miniconda.html

gTTS의 GitHub 리포지토리는 다음과 같습니다.

https://github.com/pndurette/gTTS

gTTS의 문서는 다음에서 찾을 수 있습니다.

https://gtts.readthedocs.io/en/latest/

— 에바리스트
소스