PDF 파일을 OCR로 작성하고 텍스트를 PDF로 저장하는 방법은 무엇입니까?


23

먼저, 이전에 요청한 경우 사과드립니다-기존 게시물을 통해 잠시 검색했지만 지원을 찾을 수 없습니다.

Fedora가 여러 페이지로 검색 할 수없는 pdf를 OCR로 변환하고이 pdf를 이미지 위에 텍스트 레이어가 포함 된 새로운 pdf 파일로 변환하는 솔루션에 관심이 있습니다. Mac OSX 또는 Windows에서 Adobe Acrobat을 사용할 수 있지만 Linux, 특히 Fedora에서?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/는 솔루션을 설명하는 것 같다 -하지만 정확한 이미지를 검색 할 때 불행하게도 이미 손실입니다.


멋진 pdfocr 스크립트에는 링크하려는 페이지가 권장하는 문제가 있습니다. 본질적으로 더 이상 사용되지 않는 pdftk에 의존합니다 (두 가지 이유로 libgcj 및 iText5 +에 대한 의존성). 어쨌든 다른 해결책이 필요합니다 ...
Maxim

답변:


24

사용 pypdfocr하는 것이 가장 쉽고 쉬운 방법 은 pdf를 변경하지 않습니다. pypdfocr은 python 모듈 링크입니다.

pypdfocr your_document.pdf

마지막에는 your_document_ocr.pdf검색 가능한 텍스트로 원하는 방식으로 다른 것을 얻을 수 있습니다. 앱은 이미지 품질을 변경하지 않습니다. 오버레이 텍스트를 추가하여 파일 크기를 약간 늘립니다.

GUI가 필요없는 명령은 매우 쉽다고 생각합니다. 아마 pypdfocr 설치가 조금 더 장황합니다 :

sudo dnf -y install tesseract 
pip install pypdfocr 

2018 년 11 월 3 일 업데이트 :

pypdfocr는 2016 년부터 더 이상 지원되지 않으며 유지되지 않아서 일부 문제를 발견했습니다. ocrmypdf( module )은 비슷한 작업을 수행하며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하기 위해서:

pip install ocrmypdf

또는

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

왜 apt를 사용하여 ocbunmypdf를 우분투에 설치하지만 tessaract를 fedora에 설치합니까? 나는 당신이 오타를 만들었다 고 생각합니다
iuridiniz

@iuridiniz가 수정했습니다. 실수했던 실수
Eduard Florinescu

8

tesseract가 이제 검색 가능한 PDF를 생성 할 수 있다는 것을 알게 된 후 스크립트 샌드위치를 ​​찾았습니다 .

종속성을 설치 한 후 (전체 목록이 아닐 수도 있음)

sudo dnf install svn ocaml unpaper tesseract

소스에서 컴파일하기 위해 스크립트 가이드를 따랐습니다.

소스에서 컴파일

pdfsandwich는 오픈 소스 소프트웨어입니다 (라이센스 : GPL). 프로젝트 웹 사이트의 다운로드 영역에서 .tar.bz2 패키지로 소스를 다운로드하거나 subversion으로 확인할 수 있습니다.

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.

cd pdfsandwich
./configure
make
sudo make install

그리고 이것은 이제 내가 달릴 수있게합니다.

sandwich multipaged-non-searchable.pdf

검색 가능한 pdf를 생성합니다.


이와 관련이 있지만 별도의 질문이있는 경우 unix.stackexchange.com/questions/306051/…
ingli

1
FWIW : pdfsandwich는 Ubuntu의 apt 패키지 저장소에서도 사용할 수 있습니다. 다른 배포판도있을 수 있습니다.
Laurence Gonsalves 6


그냥 우연히 fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 패키지 pdfsandwich 것을 페도라에 대한 COPR 패키지 보여주는
ingli


1

나는이 같은 문제가 있었으므로 주말에 이것을 썼다. 그것에게 주사를; 그것은 위대한 작품! 그것은 간단한 래퍼 주위입니다 tesseract. 그것은 사용 pdftoppm후 사용, TIFF 파일의 무리로 PDF를 변환하는 tesseract그들에 OCR (광학 문자 인식)을 수행하고 출력으로 검색 가능한 PDF를 생성 할 수 있습니다. 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.

소스 코드 : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

설치 및 사용 지침 pdf2searchablepdf:

2019 년 11 월 11 일 우분투 18.04에서 테스트되었습니다.

설치

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

용도:

pdf2searchablepdf mypdf.pdf

이제 검색 가능한 텍스트가 포함 된 pdf mypdf_searchable.pdf를 갖게 됩니다!

끝난. 파이썬 전적으로 bash로 작성되었으므로 파이썬 의존성이 없습니다.

참조 또는 관련 리소스 :

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : 방금 발견 한 대체 소프트웨어 래퍼입니다. http://www.tobias-elze.de/pdfsandwich/
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.