자연스러운 음성 텍스트 음성?


85

자연스럽게 들리는 우분투 용 텍스트 음성 변환 소프트웨어를 쉽게 설치할 수있는 방법을 찾고 있습니다. 내가 설치 한 Festival, Gespeaker등,하지만 아무것도 매우 자연스러운 소리를하지 않습니다. 모두 매우 합성적이고 이해하기 어렵다.

어떤 추천이 있습니까?


답변:


51

SVOX pico2wave

매우 미니멀리즘적인 TTS로 말하거나 mbrola보다 더 좋은 소리를냅니다 (제 생각에는). 여기에 몇 가지 정보가 있습니다 .

왜 pico2wave가 espeak 또는 mbrola와 비교하여 거의 논의되지 않았는지 이해할 수 없습니다. 작지만 정말 좋은 소리입니다. 수정하지 않으면 자연스러운 여성 목소리가 들립니다.

그리고 ... Mbrola와 비교할 때 단위를 인식하고 올바른 방식으로 말합니다!
예를 들면 다음과 같습니다.

  • 2 ° C → 2도
  • 2m → 2 미터
  • 2kg → 2 킬로그램

설치 후 스크립트에서 사용합니다.

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

그런 다음 원하는 텍스트로 실행하십시오.

<scriptname>.sh "hello world"

또는 전체 파일의 내용을 읽습니다.

<scriptname>.sh "$(cat <filename>)"

이것으로 Ubuntu에서 가볍고 안정적인 TTS를 사용할 수 있습니다.


1
내가 볼 수있는 한, cli 매개 변수 만 입력으로 사용합니다. 파일 이름에서 텍스트를 읽을 수있는 pico2wave를 얻을 수있는 방법이 있습니까?
Carlos Eugenio Thompson Pinzón 2012

13
pico2wavelibttspico-utils최신 버전의 우분투 에서 패키지로 제공 됩니다. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). 이 CLI 인터페이스는 대부분의 CLI와 달리 OS 최대 CLI ​​arg 길이 에 도달 할 수있는 잘못된 설계 입니다.
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

1
@Koen 몰라요! :-) 다른 문제와 마찬가지로 최소한의 예를 만들어보십시오. 예 :echo {1..1000}
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

1
@ user49557 다른 사람의 질문을 도용해서는 안되므로, 새로운 질문을 작성하여 정확히 설치 한 내용과 잘못된 점을 설명 할 수 있으며, 항상 도움을 줄 수 있습니다. , 나는 전문가가 아니다 : P)
Koen

22

말해봐!

"SpeakIt"이라는 Google Chrome 확장 프로그램을 사용하여 무료로 최고의 TTS 소프트웨어를 찾았습니다. 이것은 우분투의 Chrome 브라우저에서만 작동합니다. 어떤 이유로 Chromium과 작동하지 않습니다. SpeakIt에는 두 가지 여성 목소리가 함께 제공되어 다른 모든 것에 비해 매우 사실적으로 들립니다. 'TTS'를 검색어로 사용하여 Chrome 웹 스토어를 검색하면 Chrome 확장 프로그램에 남성 및 여성 음성이 4 개 이상 나열됩니다.

사용법 : 웹 사이트에서 사용합니다. 읽을 텍스트를 강조 표시 한 다음 마우스 오른쪽 버튼을 클릭하고 "SpeakIt"을 클릭하거나 Chrome 상단 표시 줄에 고정 된 SpeakIt 아이콘을 클릭하십시오.


Firefox 사용자에게는 두 가지 옵션이 있습니다. Firefox 애드온에서 TTS를 검색 하면 "Click Speak"와 "Text to Voice"가 표시됩니다. 음성은 Chrome SpeakIt 음성만큼 좋지는 않지만 확실히 사용할 수 있습니다.

SpeakIt 확장 프로그램은 iSpeech 기술을 사용하며 1 년에 $ 20의 가격으로 텍스트를 MP3 오디오 파일로 변환 할 수 있습니다. TXT, DOC 및 PDF와 같은 문서뿐만 아니라 텍스트, URL, RSS 피드를 입력하고 MP3로 출력 할 수 있습니다. 팟 캐스트, 내장 오디오 등을 만들 수 있습니다. 여기 링크오디오 샘플이 있습니다 (링크 지속 시간을 모름).


3
불행히도 PDF 파일에는 브라우저 옵션이 작동하지 않습니다. 당신은 하나를 발견 했습니까? PDF에서 읽을 단락을 선택할 수 있기를 원합니다 (즉, 비트를 터미널이나 다른 곳에 붙여 넣을 필요가 없습니다)
James Owers

1
이 확장은 데비안 8.4를 사용하는 크롬 50.0.2661.94에서 훌륭합니다! 나는 특히 영국 여성의 목소리를 좋아한다. 내 유일한 불만은 너무 오래 쉼표에 일시 중지한다는 것입니다.
mulllhausen 2016 년

종종 단어를 잘못 발음하고 자체 시스템을 사용하는 대신 텍스트를 별도의 서버로 보내는 데 시간이 걸립니다.
Goddard

14

Pico와 espeak는 재미 있고 일하기가 쉽지만 그다지 좋은 것은 아닙니다. 기본 페스티벌 목소리도 그다지 좋지 않습니다. 그러나 Festival은 많은 연구원들이 훨씬 더 나은 플러그인 음성을 구축 한 체계 기반의 음성 프레임 워크입니다. 이러한 음성 중 하나가 기성품 패키지로 제공되므로 우분투 스톡에서 pico2wave 품질을 쉽게 능가 할 수 있습니다.

축제 사운드를 자연스럽게 만들려면 다음을 수행하십시오.

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

-b(또는 --batch)를 사용하고 각 명령을 작은 따옴표로 묶어 명령 행에서 수행 할 수 있습니다 .

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Nitech 저장소에서 다른 좋은 음성을 얻을 수 있지만 설치가 까다 롭고 기본 경로가 변경되어 번들 구성표 파일의 파일 이름 참조를 수동으로 편집하여 재고 우분투에서 작업 할 수 있습니다.


2
우분투 16.04의 Btw에서는이 패키지가 누락 된 것으로 보입니다. 데비안에서 deb를 다운로드하여 설치할 수 있습니다. packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10. 25-2_all.deb
Jon Watte

13

간단한 Google ™ TTS

프로젝트 페이지에서 업데이트 (2019-02) : 이 프로젝트는 현재 유지 관리되지 않으며 가까운 미래에도 계속 유지 될 예정입니다.


더 나은 대안이 없기 때문에 Michal Fapso의 perl 스크립트 와 인터페이스하여 Google Translate를 통해 TTS를 제공 하는 bash 스크립트작성했습니다 . 프로젝트 설명에서 :

Google의 음성 합성 시스템을 통해 텍스트 음성 변환 출력에 사용하기 쉬운 인터페이스를 제공하고자합니다. 인터넷에 연결되어 있지 않은 경우 pico2wave를 사용하는 폴백 옵션은 자동으로 TTS 합성을 제공합니다.

래퍼는 표준 입력, 일반 텍스트 파일 및 X 선택 (강조 표시된 텍스트)에서의 읽기를 지원합니다.

주요 특징은 다음과 같습니다.

  • Google 번역을 통한 온라인 TTS 합성
  • pico2wave를 통한 오프라인 TTS 합성
  • 다양한 언어를 지원합니다
  • CLI, 텍스트 파일 및 강조 표시된 텍스트에서 읽을 수 있습니다
  • 고정 형식의 강조 표시된 텍스트 (예 : PDF 파일)를 읽을 수 있습니다

설치 및 사용법은 프로젝트 페이지에 설명되어 있습니다.

시도해 보니 기쁘다. 버그 리포트 및 기타 피드백 은 환영합니다!


이것은 내가 본 것 중 가장 멋진 프로젝트 중 하나 여야합니다. 와우 😲

5
더 이상 유지 관리되지 않습니다.
Goddard

8

나는 Ubuntu의 텍스트 음성 변환을 고품질로 보았습니다. 없습니다. 내 성대가 마비되었으므로 우분투 비디오에 음성 안내를 추가하려면 TTS가 필요했습니다 . 상용 고품질 Linux 텍스트 대 음성 소프트웨어를 여기서 얻을 수 있습니다 . 정말 비싸요. 나는 Windows 용 Natural Reader (우분투 와인에서는 작동하지 않음)를 40 달러에 구입했습니다. 나중에 나는 리눅스를 얻을 것이다.


친구, 저기 있고 지난주에 적어도 5 ~ 6 개가있는 것처럼 그것을 사용하고 있었고, 나는 내 삶을 위해 지금 그들 중 하나를 찾지
못합니다.

Textaloud는 와인 아래에서 제품이 작동하도록 지시합니다. nextup.com/forum/viewtopic.php?t=3349 참조 나는 cepstral에 리눅스 포트가 있다고 생각합니다. 좋아하는 소프트웨어 balabolka를 사용할 수 없었습니다. 주로 tts 처리를 위해 Windows 10을 설치했습니다. MS David는 훌륭하고 두근 두근과 비슷합니다. 당신이 창문 10을 가지고 있다면 이전의 것은 무료입니다.
Bhikkhu Subhuti

6

최고의 소리를 내고 텍스트를 음성으로 쉽게 조정할 수있는 연구를 진행하고 있습니다. 아래는 제가 음질 순서대로 상위 5 개 제품이라고 생각한 목록입니다. 이 제품과 관련된 대부분의 웹 사이트에는 사용자가 직접 결정할 수있는 대화식 데모가 있습니다.

  1. 네오 음성
  2. 아이 보나
  3. 아카 풀라
  4. AT & T 자연스러운 목소리
  5. CereProc 목소리

1
리눅스에 사용할 수 있습니까? 난 그렇게 생각하지 않아요
Mehdi Khademloo

5

나는 축제에서 Nitech HTS 목소리가 매우 자연스럽고 내가 들었던 다른 목소리보다 위안을 느낀다는 것을 알았습니다. 축제와 함께 Nitech 및 기타 사운드를 설정하는 방법에 대한 이 링크참조하십시오 . 나는 그 목소리를 구성하는 데 사용할 수있는 좋은 GUI를 찾지 못했지만 festival.scm을 통해 설정하는 것은 여전히 ​​작동합니다. 해당 게시물이 매우 오래되어 "locate festival"명령을 사용하여 실제 설치 디렉토리를 찾을 수 있습니다.



2
그렇습니다. Nitech의 목소리는 다른 축제의 목소리보다 우두머리입니다 (CMU 목소리를 제외하고는 아주 좋습니다). 설치하기가 너무 나쁩니다. Ubunut에는 기본 패키지가있는 CMU 음성이 있는데 cmu_us_slt_arctic_hts라고하며 festvox-us-slt-hts 패키지로 제공됩니다. 피코 나 말보다 훨씬 낫습니다!
Jon Watte 17

5

SVOX 도구 (pico)를 LibreOffice와 결합 :

SVOX (pico) 도구는 설치가 쉽고 우분투에서 양질의 음성을 제공합니다. 설치하십시오 :

sudo apt-get install libttspico0 libttspico-utils libttspico-data

"텍스트 읽기"확장 을 설치하여 LibreOffice를 SVOX (pico) 도구와 함께 사용 하면이 우수한 TTS 소프트웨어에 대한 "GUI"를 얻을 수 있습니다.

Tools-Add-on-Read selection ....을 사용 하여 Read Text Extension의 옵션설정 하십시오 . 외부 프로그램으로 / usr / bin / python 을 사용하십시오 . 토큰 (PICO_READ_TEXT_PY) 을 포함하는 명령 행 옵션을 선택하십시오 . 일부 토큰 을 실험 해보십시오.

이제 LO Writer, Calc, Impress 또는 Draw에서 일부 텍스트 만 선택하면 툴바 (풍선이있는 행복한 얼굴)로 추가 된 아이콘을 클릭 할 수 있습니다.


4

다음은 pdf 및 기타 텍스트 파일에 대한 순수한 자연 연설을 하기 위해 수행 한 것입니다 (다른 솔루션은 자연스럽지 않거나 유료 서비스입니다). 이것은 실제로 크롬이나 크롬을 사용하는 해결 방법이지만 빠르고 쉽게 작동합니다.

  1. SpeakIt을 설치 하십시오! 크롬 또는 크롬에 확장.
  2. 설치 PDF 뷰어를 사용하면 크롬을 사용하는 경우 (크롬 이미 무료 PDF 뷰어가) 및 크롬의 확장 설정에서 옵션 'URL을 파일에 대한 액세스를 허용'을 '시크릿 모드에서 허용'을 선택합니다.
  3. pdf를 브라우저로 끌어다 놓습니다.
  4. 이제 텍스트를 강조 표시하고 마우스 오른쪽 버튼을 클릭하고 SpeakIt!을 선택하십시오. 순전히 자연스러운 텍스트 음성 변환을들을 수 있습니다.

.doc 및 .txt와 같은 다른 파일을 크롬으로 열고 동일한 방법을 사용할 수도 있습니다. pdf 파일을 볼 수있는 다른 크롬 확장 프로그램이 있습니다. 더 잘 맞는지 확인하세요. 또한 Google 드라이브에 모든 종류의 텍스트를 업로드하고 SpeakIt! 당신을 위해 그것을 읽을 수 있습니다. '텍스트 말하기'라고하는 다른 확장 프로그램도 같은 방식으로 작동하며 자연스러운 음성을 사용합니다.


SpeakIt가 Google 드라이브에 저장된 pdf 파일을 읽도록 만드는 방법에 대해 자세히 설명해 주시겠습니까?
Marco Lackovic

2

새로운 파이어 폭스 49 내러티브 모드 와 함께 사용할 더 나은 tts 엔진을 검색 할 때 가장 좋아하는 TTS 엔진 인 pico tts (svox)를 발견했습니다 .

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

기본 음성 합성 엔진 시스템을 어떻게 변경합니까?

아치 리눅스의 사람들 은 나를 올바른 길로 인도 했습니다.

원하는 모듈의 주석 처리를 제거하고 음성 디스패처 설정에서 기본값으로 설정하십시오.

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

데몬을 다시 시작하십시오.

# sudo systemctl restart speech-dispatcher.service

그러나 파이어 폭스를 다시 시작할 때 아무 일도 일어나지 않습니다. 위의 링크 (아치 포럼 게시물 # 10 및 # 16)에 따르면 축제와 함께 작동하지만 시도하지는 않았지만 피코의 음성 디스패처는 사용 가능한 음성을 나열하지 않습니다. 실행되지 않습니다.

모든 아이디어는 높이 평가 될 것입니다 ;-)


1

내가 가장 좋아하는 TTS 프로그램은 Magic English이지만 Joe Steiger가 언급 한 Natural Reader와 마찬가지로 Windows 프로그램이며 Wine에서 실행 될지 확실하지 않습니다.

AT & T Natural Voices 는 온라인으로 데모로 제공되지만 솔루션보다 해결 방법이 더 많습니다 ...


1

간단한 Google ™ TTS

Pico, mbrola, cmu, festival, flite, 2017 년의 모든 SUCK (90 년대에는 훌륭했습니다). AT & T 자연어 (환상적인)는 리눅스가 아니며 무료가 아니기 때문에 Google을 사용합니다.

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

이것은 Glutanimate 답변 (그 프로젝트의 저자)의 복제본입니다 . 또한 : "상태 업데이트 :이 프로젝트는 현재 유지 관리되지 않고 있으며 앞으로도 계속 유지 될 것입니다." 그는 몇 가지 대안을
Pablo A

1

gTTS

gTTS ( Google Text-to-Speech ), Google Translate의 텍스트 음성 변환 API와 인터페이스하기위한 Python 라이브러리 및 CLI 도구입니다. 음성 mp3데이터를 파일, 추가 오디오 조작을위한 파일과 유사한 객체 ( 바이트 스트링) 또는에 기록 stdout합니다.

단점 : CLI 전용. Google 공개 개방형 엔드 포인트에 요청해야하므로 온라인 상태 여야합니다.

sudo -H pip install gTTS  # Install

용법

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

설명서 및 추가 예

기타

일부는 이미 언급되었습니다


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.