Speech-to-Text를 사용하여 자막을 자동으로 생성하는 프로그램?


12

자막을 만들려는 비디오가 있습니다. 기본 음성 텍스트를 수행 할 수있는 프로그램이 있습니까?

  1. 각 개별 자막의 정확한 시작 / 정지를 설정
  2. 기본적인 텍스트 자막 만들기 (일부 텍스트 음성 변환 사용)

그놈 자막에 대해 알고 있습니다. 그러나 이러한 자막을 수동으로 만들려면 많은 노력이 필요합니다. 각 문장의 시작과 중지를 스스로 선택해야합니다.

Youtube에는 위의 기능이 있습니다 (음성 텍스트를 사용하여 정확한 타이밍에 기본 텍스트 자막을 만듭니다). 그러나 나는 단지 자막을 얻기 위해 비디오를 Youtube에 업로드하지 않을 것입니다. 우분투에서 자막을 효율적으로 할 수 있습니까?

업데이트 : .srt 자막 만 사용하려고하며 비디오에 하드 코딩 할 필요가 없습니다. 가장 큰 요구 사항은 프로그램이 각 문장의 시작 / 정지를 자동으로 찾도록하여 텍스트를 쓰도록하는 것입니다.

업데이트 # 2 : CMU Sphinx 패키지와 함께 Linux 용 Speech-to-Text 소프트웨어가 있습니다. http://sourceforge.net/projects/cmusphinx/forums/forum/5471/topic/3949891 에 따라 자막 프로그램과 함께 CMU 스핑크스를 사용할 수 있습니다 . 또한 하나의 자막 도구는이 CMU 스핑크스 기능인 http : //groups.google.com/group/universal-subtitles-testing/browse_thread/thread/613361ffb921b43b (웹 기반 도구)이지만 최신 소스 코드에는 CMU Sphinx를 추가 한 참조가 없습니다. 이 퀘스트는 Youtube가 이미했던 것처럼 CMU Sphinx를 사용하여 기초 음성을 텍스트로 전달하는 프로그램을 계속 찾습니다 (올바른 타이밍도 설정합니다).


내 생각에 이런 식으로 작동하는 까치라는 응용 프로그램이 있습니다.
RolandiXor

답변:


3

몇 년 전 Windows에서 Aegisub 를 사용 했으며 정말 기뻤습니다. 분명히 Linux에서 사용할 수 있습니다. 꽤 자기 설명입니다.

Aegisub는 자막 파일 (예 : .srt 파일) 만 만듭니다. 비디오와 자막을 결합하여 하드 코드 된 자막을 만들려면 여전히 두 번째 프로그램을 사용해야합니다.
Windows에서는 VirtualDub를 사용했지만 Linux에서는 사용할 수 없습니다. VLC를 사용하여 Linux에서이를 수행 할 수 있습니다 .

Aegisub에 서브를 작성하여 평소와 같이 .ass 파일로 저장하십시오.

VLC를 사용하여 해당 자막 트랙을 비디오에 추가하십시오. 자막-> 자막 파일 추가 ...

자막 표시 스타일 및 설정을 원하는대로 표시하십시오. 도구-> 환경 설정-> 자막 / OSD

이제 비디오를보고 원하는대로 서브가 표시되는지 확인할 수 있습니다. 예를 들어 Aegisub에서 지정한 특정 하위를 화면이 아닌 화면 상단에 표시 할 수 있습니다.

결과는 지금 보이는 것과 동일하므로 모든 것이 양호해야합니다.

  1. 미디어-> 변환 / 저장 ... (Ctrl + R)으로 이동하십시오.

  2. 파일 선택에서 비디오 파일을 추가하십시오. "자막 파일 사용"을 선택하고 .ass 하위 파일을 찾습니다.

  3. 변환 / 저장 버튼에서 아래쪽 화살표를 클릭하고 변환 ... (Alt + O)을 클릭하십시오.

  4. 설정에서 변환 옵션이 선택되어 있는지 확인하십시오. 출력 표시 옵션을 선택하십시오. 이것을 체크하지 않으면 어떤 이유로 든 서브가 추가되지 않습니다.

  5. 비디오 및 오디오 설정을 원하는대로 프로필을 편집하십시오. 자막 탭에서 자막 상자를 선택하고 DVB 자막 코덱을 사용하십시오. '동영상에 자막 오버레이'를 선택했는지 확인하십시오. 저장을 누르십시오.

  6. 대상 상자에 대상 폴더와 파일 이름을 입력하십시오.

  7. 보도 시작.

그것이 끝날 때까지 기다리십시오. 이 방법의 단점은 비디오에서 인코딩이 실시간으로 발생하므로 2 시간의 비디오가있는 경우 2 시간이 걸립니다. 이는 '출력 표시'상자를 선택하기 때문입니다. 그러나 어떤 이유로 든 이것을 체크 할 때만 작동합니다.

다른 자막 편집기도 있습니다.

업데이트 :
Aegisub가 자막 파일에서 음성 문장의 시작과 끝을 자동으로 설정하는 기능이 있다는 것을 기억하지 못합니다. 그리고 나는 사이트의 어느 곳에서나 그러한 기능에 대한 언급을 보지 못했습니다. 그러나 (키 조합)을 사용하면 해당 시간을 수동으로 쉽게 설정할 수 있습니다.

그러한 기능을 가진 프로그램이 있습니까 (모든 OS에서)?


나도 Windows에서 Aegsub를 사용했지만 Linux에서 사용할 수 있다는 것을 몰랐다. 고마워 피트 :) ... Aegsub는 매우 유능한 자막입니다 ... 기본 형식은 ASS (SSA의 진화 .. Sub-StationAlpha 형식) .. 유니 코드를 처리하고 가라오케 텍스트를 준비하기위한 특수 도구가 있습니다 ....
Peter.O

2
Aegisub에게 감사합니다. 이 프로그램의 워크 플로를 파악하려고합니다. 전체 비디오를 스캔하고 각 자막 문장에 대한 타이밍을 만들 수 있습니까? 음성 텍스트 기능이없는 것 같습니다.
user4124

docs.aegisub.org/manual/… 을 읽을 수 있습니다 .
Pit

Aegisub는 자막을 자동으로 생성하지 않습니다. 우리는 그것을 사용하여 자막을 작성해야합니다. 아마도 이것은이 질문에 대한 해결책이 아닐 것입니다.
Harshitha Palihawadana

질문에 대한 답변은 3 년 후에 수정되었습니다! 원본 "동영상의 자막을 만드는 데 사용하는 프로그램"에는 자동 또는 텍스트 음성 변환 기능이 언급되지 않았습니다.
Pit

3

비디오의 음성을 분석하여 자막 프로그램에서 기초 자막을 자동으로 추가하는 방법을 찾지 못했습니다.

따라서 내가 사용하는 대안은

  1. 비디오를 Youtube (예 : 비공개)에 업로드하고 내장 기능을 사용하여 자동 기초 자막을 만듭니다.

그때,

  1. http://www.universalsubtitles.org/에 비디오를 추가하고 Youtube의 자동화 된 방식이 작동하지 않거나 문장이 잘못 될 경우 각 문장의 타임 프레임을 수동으로 생성 하십시오 .
  2. 자막 을 정리하고 타이밍을 수정 하려면 그놈 자막 (소프트웨어 센터에 있음)을 사용하십시오 .

1
이 답변은 자막 파일 자동 생성 문제와 가장 관련이있는 것 같습니다.
Garrett

YouTube에서 자막을 자동으로 생성 할 수 있다는 것은 놀라운 일이지만 할 수있는 프로그램은 없습니다.
개렛

3

나는 개인적으로 그놈 자막을 좋아하는데 그것은 저장소에서 사용할 수 있습니다.

sudo apt-get install gnome-subtitles

1

이 명령 줄 유틸리티를 사용할 수 있습니다

Autosub 는 자동 음성 인식 및 자막 생성을위한 유틸리티입니다. 비디오 또는 오디오 파일을 입력으로 사용하고 음성 활동 감지를 수행하여 음성 지역을 찾고 Google Web Speech API에 병렬 요청을하여 해당 지역의 전사를 생성하고 (선택적으로) 다른 언어로 번역 한 다음 결과를 저장합니다. 자막을 디스크에 넣습니다.

https://github.com/agermanidis/autosub/

Python3 사용자는 다음을 수행하십시오.

pip install git+https://github.com/BingLingGroup/autosub.git@alpha

ffmpeg가 설치되어 있는지 확인하십시오.


0

자막 편집기-자막 편집기 (apt-get install subtitleeditor)와 비슷하고 모양이 좋은 도구를 찾았습니다.

그놈 자막과 비교하려고 시도한 자막 편집기는 더 진보 된 도구로 보입니다.


0

KDE의 경우 좋은 자막 편집기는 자막 작성기입니다. 다음 명령으로 설치하십시오

sudo apt-get install subtitlecomposer

또는 링크 자막 작성기를 사용하여 자막 작성기 설치

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.