Linux에서 스크립트의 PDF에서 텍스트를 추출하는 방법은 무엇입니까?

23

Linux에서- .pdf스캔 한 이미지가 아닌 텍스트가 실제로 텍스트 인 텍스트에서 텍스트를 추출하는 방법 은 무엇입니까? 대화 형이 아닌 명령 줄 / 스크립트에서 사용할 수있는 것을 원합니다. ( .tifOCR 로 변환 하고 사용 하고 싶지 않습니다. 텍스트가 이미 .pdf파일 에서 사용 가능 하므로 불완전한 OCR에서 부정확 한 부분이 나타나는 이유는 무엇입니까?)

— RobM
소스

askubuntu에서 비슷한 질문

— Trevor Boyd Smith

25

pdftotext poppler와 함께 제공되는 PDF에서 찾은 텍스트를 추출하려고 시도합니다.

— 이그나시오 바스케스-아 브람스
소스

1

빠른 답변 감사합니다, 이그나시오! 나는 이미 xpdf로 제공되는 pdftotext (foolabs.com에서)를 확인하고있었습니다. Poppler는 xpdf에서 진화 한 것으로 보이므로 이것도 살펴 보겠습니다. 다시 감사합니다!

— RobM

9

이그나시오의 대답은 괜찮습니다. 사실, 그것은 내 목록에서 첫 번째 일 것입니다. 글쎄, 그리고 아마도 문단 등으로 텍스트를 다시 어셈블하려는 경우 pdfreflowpdftohtml 와 결합 된 poppler와 함께 제공 되는 도구 를 제안하는 것이 좋습니다 (물론 HTML 출력을 제공하지만 HTML을 일반 텍스트로 변환 할 수 있습니다) 여러 가지 방법으로 수행하십시오.)

다른 옵션도 있습니다.

.PDF를 일반 텍스트 (또는 RTF 또는 ePub 등의 다양한 전자 책 형식)로 변환 할 수있는 Calibre 의 ebook-convert명령 줄 도구

pdftxtextract에서 Podofo

명령 줄에서 Abiword 를 호출하여 입력 / 내보내기에서 입력 / 내보낼 수있는 형식을 변환 할 수 있으며, 적절한 가져 오기 플러그인을 사용하면 PDF가 포함됩니다.

abiword --to=txt file.pdf

(공평하게, 나는 AbiWord와 caliber가 모두 poppler 라이브러리를 사용한다고 생각하지만 긍정적이지 않습니다.)

— 멋진
소스

고마워요! 이 경우 텍스트를 추출하여 특정 문자열 (공급 업체 이름, 계정 번호) 및 패턴 (인보이스 번호 및 날짜)을 검색 할 수 있으므로 다시 포맷하거나 다시 표시 할 필요가 없습니다. 나는 확증과 대안에 감사하며 다른 사람들도 그렇게 할 것이라고 확신한다! - 롭

— RobM