YouTube에 비디오를 업로드하지 않고 Google의 YouTube 음성 인식을 어떻게 사용합니까?


15

자막을 갖고 싶은 강의 비디오 콘텐츠가 많이 있습니다. YouTube는 특정 조건에서 동영상의 자막을 자동으로 생성합니다 (이러한 조건은 여전히 ​​미스터리입니다).

YouTube 외부에서이 음성 인식 기술을 사용하고 싶습니다. 대본을 얻기 위해 모든 비디오를 업로드하고 싶지는 않습니다 (시간이 너무 많이 소요됨). 또한 YouTube에서 30 분 이상 (대부분의 경우)보다 긴 비디오에 대해서는 비디오를 할 수 없다고 생각합니다. 비공개 동영상에 대해서는 그렇게하지 않을 것입니다 (판매용으로 제작 된 프리미엄 콘텐츠이기 때문에 문제가됩니다).

완벽한 시나리오 : 데스크톱에서이 동영상의 대본을 가져 오기 위해 실행할 수있는 프로그램이 있으며 YouTube와 같거나 품질이 우수하며 YouTube에서 생성하는 SRT 또는 XML과 유사한 타임 코드 가 있습니다. YouTube 자막 가져 오기 ].

허용 가능한 시나리오 : 비공개 또는 공개로 설정되었거나 길이에 관계없이 YouTube에서 동영상을 녹음하도록 강요 할 수있는 몇 가지 트릭이 있습니다.

가능한 시나리오 : 자신의 프로그램을 코딩하는 데 사용할 수있는 라이브러리 또는 무언가가 있습니다. 나는 C #에 좋고 C ++에 괜찮습니다 (그러나 C #을 선호합니다).


2
귀머거리 관점에서이 링크가 작동하는 방식에 대해 매우 관심을 가져 주셔서 감사합니다.
studiohack

@studiohack 의도가 없습니다.
287352

LOL, 나는 그것을 몰랐다! : P
studiohack

답변:


10

Google 은 음성 인식 및 합성을 위해 Web Speech API 를 Chrome에 구현했으며 개발자 인 경우 사용할 수 있습니다. YouTube가 일부 동영상에서 캡션을 생성하는 데 사용하는 기능입니다. 상호 작용하는 코드를 찾을 수 있습니다.

데이터 흐름은 아마도 다음과 같습니다.

비디오 파일 => 오디오 추출 및 변환 => Google API로 전송 => 텍스트 가져 오기 => SRT에 씁니다.

편집 : W3C 사양 이외의 공식 API 페이지가없는 것 같습니다. 더 많은 링크는 다음과 같습니다.

이 예는 Chrome에서 API를 사용하는 것에 관한 것이지만 Google의 온라인 음성 인식 엔진에 직접 쿼리 할 수 ​​있습니다. 예를 들어 Raspberrry Pi의 음성 인식 개인 비서 인 Jasper를 사용하면 음성 인식 엔진으로 Google선택할 수 있습니다 .


감사합니다! 나는 확실히 이것을 시도 할 것입니다. 처리 시간을 제외하고 신속하게 수행 할 수 있으면 제품에 구현할 수 있습니다. 얼마나 유익한가.
287352

API의 또 다른 소스는 NodeWebkit 환경 일 수 있습니다
John Dvorak

1

이전 Google 음성 API를 사용하더라도 "autosub"(github의 agermanidis / autosub 참조)라는 도구가 있습니다. 이 도구는 ffmpeg를 사용하여 오디오를 FLAC 파일로 스트리핑 한 다음 FLAC 파일을 Google에 전송합니다. SRT 또는 VTT 파일을 생성합니다.

이전 Google API로 인해 정확도가 부분적으로 낮습니다. 최신 API ( https://cloud.google.com/speech/docs/apis의 'Cloud Speech REST API' )가 있습니다. 이 API는 매우 간단하며 어느 시점에서 autosub를 사용하여 포크하려고했습니다.

다른 방법은 캡션이 완료되면 YouTube에 업로드하고 VTT 파일을 다운로드하는 것입니다. 이것의 복잡한 점은 YouTube가 문장이 아닌 매우 세밀한 캡션 (예 : 몇 단어)을 생성한다는 것입니다. 수동 스캔을 수행 할 때 캡션을 확인하기가 더 어려워집니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.