텍스트 변환기에 일종의 PDF가 있습니까?


21

명령 줄에서 대량으로 검색 할 수 있도록 텍스트에 PDF 파일이 필요합니다. 우분투, OBSD 또는 유사한 배포판에 대한 변환기가 있습니까?

아마도 관련 게시물, 우분투와 OCR 여기 .



"실제"PDF (텍스트 등으로 만든) 인 경우 pdftotext가 최선의 방법입니다. 이미지 인 경우 가장 좋은 방법은 OCR입니다.
vonbrand

1
나는 항상 pdftotext=를 사용 pdfcat합니다.
동 형사상

답변:


22

당신은 많은 옵션이 있습니다!

pdftotextpoppler 에서 이미 언급되었습니다.

있다 라는 하스켈 프로그램이pdf2line 잘 작동합니다.

caliberebook-convert커맨드 라인 프로그램 (또는 caliber 자체)은 다른 옵션입니다. 내 생각에 PDF를 일반 텍스트 또는 다른 전자 책 형식 (RTF, ePub)으로 변환 할 수 있지만 pdftotext보다 더 나은 결과를 생성하지만 상당히 느립니다.

ebook-convert file.pdf file.txt

AbiWord 는 명령 줄에서 알고있는 형식간에 변환 할 수 있으며, 선택적으로 PDF 가져 오기 플러그인이 있습니다.

abiword --to=txt file.pdf

또 다른 옵션은 podofotextextract으로부터 podofo의 PDF 도구 라이브러리. 나는 그것을 실제로 시도하지 않았습니다.

두 개의 Ghostscript 도구 pdf2ps와 를 결합하면 ps2ascii또 다른 옵션이 있습니다.

실제로 몇 가지 방법을 더 생각할 수 있지만 지금은 그대로 두겠습니다. ;)


구경의 전자 책 - 변환 ... 당신은 이 합자에 무엇을? bleargh. 이런 식으로하자 : 그것은 매우 효과적인 프로그램이 아니다. pdftotext는 훨씬 더 충실합니다. 출력에서 오류를 발견하지 못했습니다.
ixtmixilix 2019

1
pdf 파일을 텍스트로 보는 데 사용할 수 있습니다 . pdftotext 또는 유사한 도구를 호출하기 위해 전 처리기, 즉 lesspipe를 호출합니다.
Daniel Näslund

pdftotext보다 정확한 결과를 제공 ebook-convert하며 매우 빠릅니다. ebook-convert느리다.
Patel Amit

pdftotext-layout옵션 바위 와 함께 ! calibre설치하려면 600MB 이상이 필요합니다!
Stalinko

9

pdftotext (Ubuntu : poppler-utils ; OpenBSD : xpdf-utilspackage) 를 사용하여 명령 행에서 PDF를 텍스트로 변환 할 수 있습니다 .

당신은 사용할 수 있습니다 Recoll (: 우분투 recoll , 오픈 BSD : 없음 포트,하지만 하나있다 FreeBSD의 .) PDF 등 다양한 형식의 텍스트 문서 유형, 내부 검색 할 수 있습니다. GUI가 있으며 후드 아래에서 자동으로 색인을 작성합니다. pdftotextPDF를 텍스트로 변환 하는 데 사용 됩니다.

Acrobat Reader (Linux에서는 버전 9 이상)에는 다중 파일 검색 기능이 제한되어 있습니다 (디렉토리의 모든 파일을 검색 할 수 있음).



-1

gPDFText는 ebook PDF 내용을 ASCII 텍스트로 변환하고 긴 줄 단락을 위해 다시 포맷하며 나에게 적합하며 그래픽 인터페이스가 있습니다.


3
안녕하세요. 사이트에 오신 것을 환영합니다. 우리는 여기서 좀 더 포괄적 인 답변을 원합니다. 예를 들어, gPDFText얻을 수있는 위치 , 설치 방법 및 OP의 질문에 대답하는 방법을 추가 할 수 있습니다.
terdon
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.