PDF 파일에서 텍스트를 텍스트로 추출하는 자동화 작업 과정

MP3 파일로 변환하고 음성 오디오로 사용하려는 코스 내용을 수정하는 PDF를받습니다.

Automator는 '텍스트 음성 변환'을 제공하며 훌륭합니다. 내가 워크 플로를 만들려고 할 때, 필자가 필요로하는 것을 제외하고는 모든 일이 발생합니다.

내가 원하는 폴더 작업 :

관련 폴더에 떨어 뜨린 PDF에서 텍스트를 추출하려면
이 텍스트를 음성 오디오로 변환하려면
iTunes에 대한 세부 정보를 제공하려면
내 선택한 재생 목록으로 가져 오기

현재이 시퀀스에는 변형이 있는데 작동하지 않습니다.

추출 PDF 텍스트, 저장
텍스트를 오디오로 변환하고 저장
오디오 가져 오기
iTunes 정보 제공
PlayList에 제목 추가

현재 PDF 텍스트는 압축이 풀리고 예상 한 곳에서 끝나지 않으며 스크립트는 오디오를 생성하는 데 걸리는 것으로 보입니다. 간단한 텍스트 편집 문서가 정상적으로 작동합니다.

뭐가 문제 야?

(이 질문은 내가 어제 물었던 하나의 연속이다 : 이리 )

— Edd Turner
소스

그래서이 dowen을 3 개의 스크립트 (Extact 텍스트, 오디오로 변환, iTunes로 가져 오기)로 나누려고 시도했으며 첫 번째 장애물에 도달했습니다. 심지어 간단한 '폴더에 추가 및 PDF 텍스트 추출'이 작동하지 않습니다. . 워크 플로우 저장 이외의 폴더 스크럽을 활성화하려면 어떻게해야합니까?

— Edd Turner

Automator는 매우 유용하지만 개인적으로 Terminal / command line은 이와 같은 문제를 해결하기에 좋은 곳입니다.

기본 아이디어는 여전히 설명하는 단계를 사용하지만 명령 줄에서 모든 작업을 수행하는 것입니다. 나는 유용한 PDF - 텍스트 변환기 , 나는 발견했다. PDFminer 아주 유용합니다. 달릴 수 있다면 일의 절반이 끝납니다!

pip install pdfminer

1 단계와 2 단계는 터미널에서이 한 줄 짜기로 해결할 수 있습니다.

pdf2txt.py example.pdf | say -v Daniel -o example.aiff

여전히 누락 된 메타 데이터가 추가되었습니다. 여기에 무엇이 필요합니까? 제목 / 앨범 / "아티스트"?

마지막 단계에서 파일을 특정 iTunes 재생 목록에 추가합니다. 이상적인 워크 플로우에 따라 새 파일을위한 폴더를 모니터링하는 작은 LaunchAgent를 만들 수 있습니다 ...

— myhd
소스