23

먼저, 이전에 요청한 경우 사과드립니다-기존 게시물을 통해 잠시 검색했지만 지원을 찾을 수 없습니다.

Fedora가 여러 페이지로 검색 할 수없는 pdf를 OCR로 변환하고이 pdf를 이미지 위에 텍스트 레이어가 포함 된 새로운 pdf 파일로 변환하는 솔루션에 관심이 있습니다. Mac OSX 또는 Windows에서 Adobe Acrobat을 사용할 수 있지만 Linux, 특히 Fedora에서?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/는 솔루션을 설명하는 것 같다 -하지만 정확한 이미지를 검색 할 때 불행하게도 이미 손실입니다.

command-line pdf ocr

— 잉글 리
소스

멋진 pdfocr 스크립트에는 링크하려는 페이지가 권장하는 문제가 있습니다. 본질적으로 더 이상 사용되지 않는 pdftk에 의존합니다 (두 가지 이유로 libgcj 및 iText5 +에 대한 의존성). 어쨌든 다른 해결책이 필요합니다 ...

— Maxim

24

사용 pypdfocr하는 것이 가장 쉽고 쉬운 방법 은 pdf를 변경하지 않습니다. pypdfocr은 python 모듈 링크입니다.

pypdfocr your_document.pdf

마지막에는 your_document_ocr.pdf검색 가능한 텍스트로 원하는 방식으로 다른 것을 얻을 수 있습니다. 앱은 이미지 품질을 변경하지 않습니다. 오버레이 텍스트를 추가하여 파일 크기를 약간 늘립니다.

GUI가 필요없는 명령은 매우 쉽다고 생각합니다. 아마 pypdfocr 설치가 조금 더 장황합니다 :

sudo dnf -y install tesseract 
pip install pypdfocr

2018 년 11 월 3 일 업데이트 :

pypdfocr는 2016 년부터 더 이상 지원되지 않으며 유지되지 않아서 일부 문제를 발견했습니다. ocrmypdf( module )은 비슷한 작업을 수행하며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하기 위해서:

pip install ocrmypdf

또는

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

— 에두아르 플로리 네 스쿠
소스

왜 apt를 사용하여 ocbunmypdf를 우분투에 설치하지만 tessaract를 fedora에 설치합니까? 나는 당신이 오타를 만들었다 고 생각합니다

— iuridiniz

@iuridiniz가 수정했습니다. 실수했던 실수

— Eduard Florinescu

8

tesseract가 이제 검색 가능한 PDF를 생성 할 수 있다는 것을 알게 된 후 스크립트 샌드위치를 찾았습니다 .

종속성을 설치 한 후 (전체 목록이 아닐 수도 있음)

sudo dnf install svn ocaml unpaper tesseract

소스에서 컴파일하기 위해 스크립트 가이드를 따랐습니다.

소스에서 컴파일

pdfsandwich는 오픈 소스 소프트웨어입니다 (라이센스 : GPL). 프로젝트 웹 사이트의 다운로드 영역에서 .tar.bz2 패키지로 소스를 다운로드하거나 subversion으로 확인할 수 있습니다.

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.

cd pdfsandwich
./configure
make
sudo make install

그리고 이것은 이제 내가 달릴 수있게합니다.

sandwich multipaged-non-searchable.pdf

검색 가능한 pdf를 생성합니다.

— 잉글 리
소스

이와 관련이 있지만 별도의 질문이있는 경우 unix.stackexchange.com/questions/306051/…

— ingli

1

FWIW : pdfsandwich는 Ubuntu의 apt 패키지 저장소에서도 사용할 수 있습니다. 다른 배포판도있을 수 있습니다.

— Laurence Gonsalves 6

unix.stackexchange.com/questions/471985/… 어떤 제안

— Deepak Umredkar

그냥 우연히 fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 패키지 pdfsandwich 것을 페도라에 대한 COPR 패키지 보여주는

— ingli

3

Ubuntu에서 사용 가능한 쉬운 도구는 'ocrfeeder'입니다. 원본 문서에 OCR 텍스트가 겹쳐진 PDF를 생성 할 수 있습니다. Tesseract와 다른 OCR 엔진 (어떤 것인지 확실하지 않음)을 사용하며 이미지 회전 / '언 페이퍼'등을 제공합니다.

— jdpipe
소스

1

나는이 같은 문제가 있었으므로 주말에 이것을 썼다. 그것에게 주사를; 그것은 위대한 작품! 그것은 간단한 래퍼 주위입니다 tesseract. 그것은 사용 pdftoppm후 사용, TIFF 파일의 무리로 PDF를 변환하는 tesseract그들에 OCR (광학 문자 인식)을 수행하고 출력으로 검색 가능한 PDF를 생성 할 수 있습니다. 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.

소스 코드 : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

설치 및 사용 지침 `pdf2searchablepdf`:

2019 년 11 월 11 일 우분투 18.04에서 테스트되었습니다.

설치

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

용도:

pdf2searchablepdf mypdf.pdf

이제 검색 가능한 텍스트가 포함 된 pdf mypdf_searchable.pdf를 갖게 됩니다!

끝난. 파이썬 전적으로 bash로 작성되었으므로 파이썬 의존성이 없습니다.

참조 또는 관련 리소스 :

PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
/ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
/ubuntu/16268/whats-the-best-simplest-ocr-solution
/ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdfsandwich : 방금 발견 한 대체 소프트웨어 래퍼입니다. http://www.tobias-elze.de/pdfsandwich/

— 가브리엘 스테이플
소스

PDF 파일을 OCR로 작성하고 텍스트를 PDF로 저장하는 방법은 무엇입니까?

2018 년 11 월 3 일 업데이트 :

설치 및 사용 지침 pdf2searchablepdf:

설치

용도:

참조 또는 관련 리소스 :

설치 및 사용 지침 `pdf2searchablepdf`: