답변:
pdftotext
poppler와 함께 제공되는 PDF에서 찾은 텍스트를 추출하려고 시도합니다.
이그나시오의 대답은 괜찮습니다. 사실, 그것은 내 목록에서 첫 번째 일 것입니다. 글쎄, 그리고 아마도 문단 등으로 텍스트를 다시 어셈블하려는 경우 pdfreflowpdftohtml
와 결합 된 poppler와 함께 제공 되는 도구 를 제안하는 것이 좋습니다 (물론 HTML 출력을 제공하지만 HTML을 일반 텍스트로 변환 할 수 있습니다) 여러 가지 방법으로 수행하십시오.)
다른 옵션도 있습니다.
.PDF를 일반 텍스트 (또는 RTF 또는 ePub 등의 다양한 전자 책 형식)로 변환 할 수있는 Calibre 의 ebook-convert
명령 줄 도구
pdftxtextract
에서 Podofo
명령 줄에서 Abiword 를 호출하여 입력 / 내보내기에서 입력 / 내보낼 수있는 형식을 변환 할 수 있으며, 적절한 가져 오기 플러그인을 사용하면 PDF가 포함됩니다.
abiword --to=txt file.pdf
(공평하게, 나는 AbiWord와 caliber가 모두 poppler 라이브러리를 사용한다고 생각하지만 긍정적이지 않습니다.)