다른 사람의 목소리를 모방 / 복사 / 가짜하는 방법?


19

다른 사람의 음성을 샘플링하여 다른 음성을 변조하거나 텍스트를 합성하여 원래 음성과 유사한 기존 응용 프로그램이 있습니까?

예를 들어, AT & T 의이 Text-to-Speech Demo를 사용하면 샘플링 된 일부 사람의 음성을 기반으로하는 사전 설정에서 음성과 언어를 선택할 수 있습니다.

이 과정을 어떻게 부릅니까? 음성 변조입니까? 음성 합성?


당신이 충분한 훈련 샘플, 특히 단어를 가지고 있다면 가능할 것 같아요
Phorce

리서치 커뮤니티에서는이를 "음성 변환"이라고합니다.
pichenettes 2013

@ user1582478 충분한 정보가 있습니다. 어떻게 진행 하시겠습니까?
clapas

친구로부터 음성을 생성 한 다음 음성 모프와 같은 전화 통화로 생생하게 음성을 만들 수 있습니까?

이것은 질문에 대한 답변을 제공하지 않습니다. 작성자의 의견을 비판하거나 설명을 요청하려면 게시물 아래에 댓글을 남겨주세요. 언제든지 자신의 게시물 에 댓글 수 있으며 평판 이 충분 하면 게시물댓글 수 있습니다 .
Matt L.

답변:


24

첫 번째 참고 사항 : 연결 한 AT & T의 시스템과 같은 대부분의 최신 텍스트 음성 변환 시스템은 연결 음성 합성을 사용 합니다. 이 기술은 한 사람의 목소리를 기록하는 방대한 데이터베이스 데이터베이스를 사용하여 많은 문장 조합이 존재하도록 선택된 문장을 길게 수집합니다. 문장을 합성하는 것은이 말뭉치에서 세그먼트를 함께 묶는 것만으로도 가능합니다. 어려운 것은 문자열을 매끄럽고 표현력있게 만드는 것입니다.

이 기술을 사용하여 오바마 대통령이 당황스러운 말을하게하려면 두 가지 큰 장애물이 있습니다.

  • 균일 한 녹음 조건과 좋은 음질로 녹음 된 대상 음성의 문장을 많이 수집해야합니다. AT & T는 같은 스튜디오에서 동일한 스피커를 수십 시간 동안 녹음 할 수있는 예산을 가지고 있지만 5 분만에 누군가의 목소리를 속이려면 어려울 것입니다.
  • 기록 된 원재료가 연결 음성 합성 시스템에 의해 이용되기에 적합한 "포맷"이되기 전에 상당한 양의 수동 정렬 및 전처리가 존재한다.

이 두 가지 문제를 해결할 예산이 있다면 이것이 가능한 해결책이라는 직관이 유효합니다.

다행히도 적은 감독과 적은 데이터로 작동 할 수있는 다른 기술이 있습니다. 녹음에서 하나의 음성을 "가짜"또는 "모방"하는 데 관심이있는 음성 합성 분야를 음성 변환이라고 합니다. 대상 스피커 A 말하기 문장 1의 녹음 A1과 소스 스피커 B 말하기 문장 2의 녹음 B2가 있으며, 가능하면 스피커 B의 녹음 B1에 액세스하여 스피커 A 말하기 문장 2의 녹음 A2를 생성하는 것을 목표로합니다. 그 / 그녀의 목소리로 목표 화자와 동일한 발화.

음성 변환 시스템의 개요는 다음과 같습니다.

  1. 오디오 기능은 A1 녹음에서 추출되어 음향 클래스로 클러스터됩니다. 이 단계에서는 가방이 스피커 A의 모든 "a", 스피커 A의 모든 "o"등을 갖는 것과 약간 비슷합니다. 이는 실제 음성 인식보다 훨씬 간단하고 거친 작업입니다. 정확하게 형성된 단어를 인식하고 어떤 가방에 "o"가 포함되어 있고 어떤 가방에 "a"가 포함되어 있는지조차 알지 못합니다. 우리는 각 가방에 같은 소리의 여러 인스턴스가 있다는 것을 알고 있습니다.
  2. B2에도 동일한 프로세스가 적용됩니다.
  3. A1과 B2의 음향 등급이 정렬됩니다. 백과 유사하게 계속하려면, 1 단계와 2 단계의 백을 페어링하는 것과 동일하므로 스피커 A에서이 백에있는 모든 사운드가 스피커 B에서 해당 백에있는 사운드와 일치해야합니다. 2 단계에서 B1을 사용하면 훨씬 쉽게 수행 할 수 있습니다.
  4. 각각의 백 쌍에 대해 맵핑 기능이 추정됩니다. 이 백에 스피커 A의 사운드가 포함되어 있고이 백에 동일한 사운드가 있지만 스피커 B에 의해 언급 된 것을 알 수 있기 때문에 해당 벡터에 해당하는 연산 (예 : 피처 벡터의 행렬 곱셈)을 찾을 수 있습니다. 다시 말해, 스피커 1의 "o"와 같이 스피커 2의 "o"사운드를 만드는 방법을 알았습니다.
  5. 이 단계에서는 음성 변환을 수행 할 수있는 모든 카드가 준비되어 있습니다. B2 기록의 각 슬라이스에서 2 단계의 결과를 사용하여 해당 음향 클래스에 해당하는 음향 등급을 알아냅니다. 그런 다음 4 단계에서 추정 한 매핑 기능을 사용하여 슬라이스를 변환합니다.

나는 이것이 B2에서 음성 인식을 수행 한 다음 A1의 음성을 코퍼스로 사용하여 TTS를 수행하는 것보다 훨씬 낮은 수준에서 작동한다는 사실을 주장합니다.

1 단계와 2 단계에 다양한 통계 기법이 사용됩니다. GMM 또는 VQ가 가장 일반적입니다. 파트 2에는 다양한 정렬 알고리즘이 사용됩니다. 가장 까다로운 파트이며 A1과 B2보다 A1과 B1을 정렬하는 것이 더 쉽습니다. 더 간단한 경우에는 Dynamic Time Warping과 같은 방법을 사용하여 정렬 할 수 있습니다. 4 단계에서 가장 일반적인 변환은 특징 벡터의 선형 변환 (행렬 곱셈)입니다. 더 복잡한 변환은보다 사실적인 모방을 만들지 만 최적의 매핑을 찾기위한 회귀 문제는 해결하기가 더 복잡합니다. 마지막으로, 단계 5에서와 같이, 재 합성의 품질은 사용 된 특징에 의해 제한된다. LPC는 일반적으로 간단한 변환 방법을 처리하기가 더 쉽습니다 (신호 프레임 가져 오기-> 잔류 및 LPC 스펙트럼 추정-> 필요한 경우 피치-시프트 잔류-> 수정 된 LPC 스펙트럼을 수정 된 잔차에 적용). 시간 영역으로 되돌릴 수 있고 번영과 음소를 잘 구분할 수있는 음성 표현을 사용하는 것이 여기에 중요합니다! 마지막으로, 동일한 문장을 말하는 스피커 A와 B의 정렬 된 기록에 액세스 할 수 있다면, 하나의 단일 모델 추정 절차에서 단계 1, 2, 3 및 4를 동시에 처리하는 통계 모델이 있습니다.

나중에 참고 문헌으로 다시 돌아올 수도 있지만 문제에 대한 느낌을 얻기 시작하기에 매우 좋은 곳이며이를 해결하는 데 사용되는 전체 프레임 워크는 Stylianou, Moulines 및 Cappé의 "확률 적 분류 및 고조파를 기반으로 한 음성 변환 시스템입니다. 플러스 노이즈 모델 ".

내 지식에는 음성 변환을 수행하는 소프트웨어가 없으며 음조 및 성대 길이 매개 변수 (예 : IRCAM TRAX 변환기)와 같은 소스 음성의 속성을 수정하는 소프트웨어만이 있습니다. 대상 음색에 가까운 사운드를 녹음합니다.


대단한 답변! 나는 가방 비유없이 그것을 이해할 수 없었을 것입니다 ...이 분명한 설명 후에 이해하지 못하는 한 가지가 있습니다 : 내 이해에는 항상 B1을 가질 수 있습니다! 대단히 감사합니다.
clapas

A와 B가 다른 언어를 사용하는 경우는 아닙니다 (다른 언어의 TTS를 자신의 음성으로 재생하는 음성 변환 응용 프로그램이 있습니다!). 또는 A와 B가 모두 유명한 인물 인 경우 공개적으로 사용 가능한 모든 녹음에서 충분히 긴 공통 문장을 찾을 수없고 언어를 구사하지 못해 음성 녹음을 둘 사이의 "다리".
pichenettes

내가 참조. @pichenettes에게 다시 감사드립니다. 나는 Stylianou et al.의 언급 된 책을 보려고 노력할 것이다. 건배
clapas

사용한 두문자어에 대한 링크로 답변을 업데이트하십시오. 예 : LPC, VQ, GMM.
aaronsnoswell

aaronsnoswell의 의견에 대한 응답으로 : LCP : 선형 예측 코딩, VQ : 벡터 양자화, GMM : 가우스 혼합 모델. 이러한 약어의 단순한 확장이 각각 복잡한 아이디어이기 때문에 많은 도움이된다는 것은 분명하지 않지만, 각 아이디어는 기존 샘플 세트의 pst 또는 미래 데이터를 모델링하거나 설명하는 것과 관련이 있습니다.
GregD

2

MorphVox 와 같은 것을 사용할 수 있습니다 . 여기 데모가 있습니다. 이 과정을 음성 모핑 또는 변환이라고합니다. 기술적 인 측면에 관심이 있다면 최근에 공부할 수있는 기사는 Dynamic Kernel Partial Least Squares Regression을 사용한 음성 변환 입니다.


다크 베이더의 목소리가 짝을 이루는 것은 재미있었습니다. 글쎄, 나는 전에 비슷한 효과를 보았다. 감사합니다
clapas

1

같은 것을 찾고 있지만 할 수 없습니다. 스코틀랜드에는 CereProc이라는 회사가 있는데 음성 모델링을 수행하지만 실험실에서 오디오를 녹음하는 시간에 누군가가 필요하며 단일 음성을 모델링하는 비용은 약 $ 30K입니다.


0

당신이 찾고있는 것을 보코더라고합니다.

Audcity의 보코더를 사용해 보셨습니까? Audacity는 http://audacity.sourceforge.net/download 에서 다운로드 할 수 있습니다 . 사용 방법에 대한 데모는 https://www.youtube.com/watch?v=J_rPEmJfwNs 에서 확인할 수 있습니다 .


1
보 코딩은 한 오디오 녹음 (일반적으로 음성)의 스펙트럼 엔벨로프를 적용하여 다른 사운드 (일반적으로 변조되지 않은 신디사이저 사운드)를 필터링합니다. 다른 사람의 목소리를 속이는 데 사용할 수 없습니다.
pichenettes 2013

예, 나는 대담을 알고 있지만 보코더를 시도하지 않았습니다. 녹음 된 음성의 봉투에만 화이트 노이즈를 적용 할 수 있다고 생각합니다. 감사합니다
clapas 2013
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.