스캔 한 PDF를 텍스트가있는 PDF로 변환하는 방법


36

약 80 페이지를 그레이 스케일 pdf (이미지 형식)로 스캔했습니다. 파일의 최종 크기는 약 70MB이며 매우 큽니다.

이제 회색조 이미지 기반 PDF 파일을 간단한 흑백 텍스트 기반 PDF 파일로 변환하는 방법을 찾고 있습니다.

나는 많은 시도를 gs했지만 성공하지 못했습니다 (몇 퍼센트의 복구 만). 어떤 전문가라도 아이디어가 있다면 친절하게 알려주십시오.


1
OCR 도구가 필요합니다. Tesseract ubuntuforums.org/showthread.php?t=880471를보십시오
Nikita U.

4
PDF 이미지를 그대로 유지하고 텍스트를 추가하려는 경우 PDF에 OCR 정보 추가 질문을 살펴보십시오 .
colan

예를 들어 한 페이지로 연결되는 링크를 게시 할 수 있다면 솔루션을 테스트 할 수 있습니다.
Rmano

그것은 OCR 솔루션은 아니지만 askubuntu.com/a/3387/16395 가 많은 도움을줍니다 (72dpi는 약간 낮지 만 120으로 더 나은 결과를 얻습니다 ).
Rmano

YAGF가 Ubuntu 16.04에서 올바르게 작동합니까? 이미지 나 PDF 문서를로드하면 오류 메시지없이 프로그램이 중단됩니다. 우분투 14.04에서는 아무런 문제가 없었습니다. H.Roos
허버트 Roos

답변:


25

gImageReader는 간단한 GTK + 프런트 엔드 tesseract-ocr입니다.

sudo apt-get install gimagereader tesseract-ocr

독일어 텍스트에 대해 죄송합니다


4
또한 OCR을 향상시키기 위해 문서 언어를 설치해야 합니다.로 Deutsch, 포르투갈어 등 의 언어 코드로 sudo apt-get install tesseract-ocr-[lang]대체 lang하십시오 .deupor
estibordo

1
이 소프트웨어는 못 생겼습니다. 유용성은 0 미만입니다. 작업을 수행하려고 시도하지만 일반 스프레드 시트와 유사한 테이블을 읽을 수 없습니다. 페이지가 포함 된 페이지를 놓치면됩니다.
Max Yudin

9

pdfocr을 사용해 볼 수 있습니다 :

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

구문을 실행하려면

 pdfocr -i input.pdf -o output.pdf

여기서 input.pdf입력 파일과 output.pdf출력 파일 의 이름입니다 .

기본적으로 Tesseract를 사용합니다. 설치하려면 :

 sudo apt-get install tesseract-ocr

pdfocr은 포함 된 텍스트 레이어를 만듭니다.


큰! 흥미롭게도 위의 단계를 수행 한 후 Adobe Acrobat DC에서 파일을 검색 할 수 있지만 미리보기에서는 검색 할 수 없습니다.
lukeaus

2
이 저장소는 xenial을 지원하지 않습니다
Max N

이전 버전의 pdfocr을 설치해 볼 수 있습니다. xenial에 wily 버전을 설치하면 정상적으로 작동합니다. 이렇게하려면 "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main"및 "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main"을 /etc/apt/sources.list에 추가 한 다음 "sudo apt 업데이트"및 "sudo apt-get 설치 pdfocr"
rafmunozf

2
pdfocr는 다음 프로세스를 자동화하는 스크립트입니다. 1. pdftk를 사용하여 PDF 파일을 별도의 페이지로 분할 2. pdfimages를 사용하여 이미지 데이터 추출 3. 설형 문자를 사용하여 OCR (광학 문자 인식) 수행 4. 감지 된 텍스트를 hocr2pdf를 사용한 PDF 파일 5. pdftk를 사용하여 파일을 병합합니다. ( ubuntuforums.org/showthread.php?t=1456756 인용 )
Tommy Trussell 14시 01 분

3
pdfsandwich

설치시 tesseract 및 기타를로드합니다. 쉬운 원스텝 솔루션이며 스크립팅 할 수 있습니다. hocr2pdf일반 텍스트 pdf를 만드는 데 사용할 수 있지만 아직 준비가되지 않았습니다 ... 기본값은 tesseract를 사용하고 아래에 "샌드위치"pdf : 이미지 + 텍스트를 만듭니다.

포함 된 이미지는 다음과 같은 명령으로 제거 할 수 있습니다.

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

그러나 텍스트는 숨겨져 있으므로 빈 페이지처럼 보입니다.

PDF를로드하면 LibreOffice Draw텍스트가 표시되고 이미지를 수동으로 삭제할 수 있습니다.


우리는 ImageMagick이 / 고스트 보안을 선도하는 문제에 대해합니까 무엇 not authorized에 오류 identify-im6.q16:이 같은 권한이 없습니다 : - 변환 ImageMagick를 aaaa스택 오버플로 - 오류 / constitute.c / ReadImage / 453 @
nealmcb

1

ubuntu 14.04에서 @AB가 제안한 그래픽 인터페이스의 경우 다음을 따라야합니다.

우분투 14.04의 ocs tesseract

또는 어쨌든 저장소 목록에 추가하십시오.

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

이것이 작동하기 전에 :

sudo apt-get install gimagereader


-1

pdf 파일에서 마우스 오른쪽 버튼을 클릭하고 각 페이지를 이미지로 저장하십시오 (또는 모든 페이지를 자동으로 수행하는 도구를 찾으십시오)

우분투 소프트웨어 센터를여십시오. tesseract를 검색하십시오. 설치해야 할 YAGF를 찾을 수 있습니다. YAGF에서 파일-> 이미지 열기를 클릭하고 이미지를로드하십시오. 그런 다음 파일-> 인식을 클릭하십시오.

첫 테스트에서 100 % 정확도를 가졌습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.