약 80 페이지를 그레이 스케일 pdf (이미지 형식)로 스캔했습니다. 파일의 최종 크기는 약 70MB이며 매우 큽니다.
이제 회색조 이미지 기반 PDF 파일을 간단한 흑백 텍스트 기반 PDF 파일로 변환하는 방법을 찾고 있습니다.
나는 많은 시도를 gs
했지만 성공하지 못했습니다 (몇 퍼센트의 복구 만). 어떤 전문가라도 아이디어가 있다면 친절하게 알려주십시오.
약 80 페이지를 그레이 스케일 pdf (이미지 형식)로 스캔했습니다. 파일의 최종 크기는 약 70MB이며 매우 큽니다.
이제 회색조 이미지 기반 PDF 파일을 간단한 흑백 텍스트 기반 PDF 파일로 변환하는 방법을 찾고 있습니다.
나는 많은 시도를 gs
했지만 성공하지 못했습니다 (몇 퍼센트의 복구 만). 어떤 전문가라도 아이디어가 있다면 친절하게 알려주십시오.
답변:
gImageReader는 간단한 GTK + 프런트 엔드 tesseract-ocr
입니다.
sudo apt-get install gimagereader tesseract-ocr
독일어 텍스트에 대해 죄송합니다
sudo apt-get install tesseract-ocr-[lang]
대체 lang
하십시오 .deu
por
pdfocr을 사용해 볼 수 있습니다 :
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
구문을 실행하려면
pdfocr -i input.pdf -o output.pdf
여기서 input.pdf
입력 파일과 output.pdf
출력 파일 의 이름입니다 .
기본적으로 Tesseract를 사용합니다. 설치하려면 :
sudo apt-get install tesseract-ocr
pdfocr은 포함 된 텍스트 레이어를 만듭니다.
pdfsandwich
설치시 tesseract 및 기타를로드합니다. 쉬운 원스텝 솔루션이며 스크립팅 할 수 있습니다. hocr2pdf
일반 텍스트 pdf를 만드는 데 사용할 수 있지만 아직 준비가되지 않았습니다 ... 기본값은 tesseract를 사용하고 아래에 "샌드위치"pdf : 이미지 + 텍스트를 만듭니다.
포함 된 이미지는 다음과 같은 명령으로 제거 할 수 있습니다.
gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf
그러나 텍스트는 숨겨져 있으므로 빈 페이지처럼 보입니다.
PDF를로드하면 LibreOffice Draw
텍스트가 표시되고 이미지를 수동으로 삭제할 수 있습니다.
not authorized
에 오류 identify-im6.q16
:이 같은 권한이 없습니다 : - 변환 ImageMagick를 aaaa
스택 오버플로 - 오류 / constitute.c / ReadImage / 453 @
ubuntu 14.04에서 @AB가 제안한 그래픽 인터페이스의 경우 다음을 따라야합니다.
또는 어쨌든 저장소 목록에 추가하십시오.
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
이것이 작동하기 전에 :
sudo apt-get install gimagereader
당신이 시도 할 수 shrinkpdf을 파일 크기를 줄이기 위해 다음 ocr.sh 텍스트 레이어를 추가 할 수 있습니다.