답변:
당신은 많은 옵션이 있습니다!
pdftotext
poppler 에서 이미 언급되었습니다.
있다 라는 하스켈 프로그램이pdf2line
잘 작동합니다.
caliber 의 ebook-convert
커맨드 라인 프로그램 (또는 caliber 자체)은 다른 옵션입니다. 내 생각에 PDF를 일반 텍스트 또는 다른 전자 책 형식 (RTF, ePub)으로 변환 할 수 있지만 pdftotext보다 더 나은 결과를 생성하지만 상당히 느립니다.
ebook-convert file.pdf file.txt
AbiWord 는 명령 줄에서 알고있는 형식간에 변환 할 수 있으며, 선택적으로 PDF 가져 오기 플러그인이 있습니다.
abiword --to=txt file.pdf
또 다른 옵션은 podofotextextract
으로부터 podofo의 PDF 도구 라이브러리. 나는 그것을 실제로 시도하지 않았습니다.
두 개의 Ghostscript 도구 pdf2ps
와 를 결합하면 ps2ascii
또 다른 옵션이 있습니다.
실제로 몇 가지 방법을 더 생각할 수 있지만 지금은 그대로 두겠습니다. ;)
pdftotext
보다 정확한 결과를 제공 ebook-convert
하며 매우 빠릅니다. ebook-convert
느리다.
pdftotext
-layout
옵션 바위 와 함께 ! calibre
설치하려면 600MB 이상이 필요합니다!
pdftotext (Ubuntu : poppler-utils ; OpenBSD : xpdf-utils
package) 를 사용하여 명령 행에서 PDF를 텍스트로 변환 할 수 있습니다 .
당신은 사용할 수 있습니다 Recoll
(: 우분투 recoll , 오픈 BSD : 없음 포트,하지만 하나있다 FreeBSD의 .) PDF 등 다양한 형식의 텍스트 문서 유형, 내부 검색 할 수 있습니다. GUI가 있으며 후드 아래에서 자동으로 색인을 작성합니다. pdftotext
PDF를 텍스트로 변환 하는 데 사용 됩니다.
Acrobat Reader (Linux에서는 버전 9 이상)에는 다중 파일 검색 기능이 제한되어 있습니다 (디렉토리의 모든 파일을 검색 할 수 있음).
pdftotext는 당신이 찾고있는 것 같습니다 : http://en.wikipedia.org/wiki/Pdftotext 추출하려는 텍스트가 실제로 그래픽 형식으로되어 있지 않으면 pdf 문서에서는 일반적이지 않습니다.