문서의 스캔 품질이 좋습니다. 이러한 스캔은 pdf 형식입니다.
PDF에 ocr 정보를 추가하여 검색 가능하게하려면 어떻게해야합니까? 검색 가능하다는 것은 elect로 pdf를 볼 때 CTRL-F가 실제로 pdf 컨텐츠를 검색 할 수 있도록하는 것입니다.
문서의 스캔 품질이 좋습니다. 이러한 스캔은 pdf 형식입니다.
PDF에 ocr 정보를 추가하여 검색 가능하게하려면 어떻게해야합니까? 검색 가능하다는 것은 elect로 pdf를 볼 때 CTRL-F가 실제로 pdf 컨텐츠를 검색 할 수 있도록하는 것입니다.
답변:
원하는 것을하고 우분투 deb 패키지를 제공합니다. tesseract를 OCR 엔진으로 사용합니다. 다음 호출은 스캔 한 PDF에 텍스트 레이어를 추가합니다.
pdfsandwich scanned.pdf
다음은 동일하지만 다른 언어 (ISO 639-2 코드, 다운로드 tesseract-ocr-LANGCODE
패키지)로 레이아웃을 설정합니다.
pdfsandwich -verbose -lang spa -layout single scanned.pdf
오류가 발생하면 Sourceforge에서 최신 버전 deb 를 다운로드 하십시오 .
면책 조항 : 나는 pdfsandwich의 개발자이므로 분명히 편견입니다.
pdfunite
.
pdfsandwitch
있습니까? 스웨덴어 문서 로이 작업을 수행하고 있으며 텍스트 파일 인 경우 수정하기 쉬운 맞춤법 오류 (원본 글꼴 때문일 수 있음)를 제외하고는 잘 작동하지만 결과 PDF에서 어떻게 할 수 있습니까? ?
비 이상적인 해결책을 찾았지만 매우 효과적인 해결책을 찾았습니다.
내가 사용하는 PDF X-변경 뷰어 와인을 통해. 기존 이미지 기반 pdf에 텍스트 레이어를 추가하는 OCR 기능이 있습니다.
따라서이 보이지 않는 레이어에서 텍스트를 검색하고 복사 할 수 있습니다.
명령 행 솔루션의 경우 pdfocr 을 사용할 수 있습니다 .
간단히 말해서 소프트웨어를 설치하십시오.
$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr
그런 다음 pdfocr을 실행하십시오.
$ pdfocr -i scanned.pdf -o scanned.with.search.pdf
우분투 12.04 LTS에서 저에게 효과적이었습니다.
pdfsandwich
고해상도 이미지가 포함 된 PDF를 수정 / 압축하여 기본적으로 원래 이미지 정보 중 일부를 파괴하기 때문에 와 같은 문제가 있습니다.
쉽게 구현할 수 있고 동일한 품질의 입력 파일과 합리적인 크기의 출력 PDF를 제공하는 솔루션은 OCRmyPDF입니다.
이것은 내 신속하고 더러운 ImageMagick이의에 기반 솔루션입니다 convert
, tesseract
, parallel
및 pdftk
(데비안 기반 배포판에서 사용할 수있는 모든). 이 블로그 게시물을 기반으로 합니다 .
#!/bin/sh -ex
density=${2:-"300"} # default to 300 DPI if 2nd parameter is not given
convert -monitor -density "$density" "$1" -monochrome -compress lzw -alpha deactivate page_%05d.tif
parallel --bar "tesseract {} {.} pdf 2>/dev/null" ::: page_*.tif
pdftk page_*.pdf cat output "${1%.*}-ocred.pdf" compress
# Cleanup temp files
rm page_?????.tif page_?????.pdf
ppm 파일이있는 전체 디렉토리의 경우이 스크립트 ppm2ocrpdf.sh를 사용할 수 있습니다.
#!/bin/sh
mkdir .pdf
for f in *.ppm; do
echo " Running convert -compress JPEG -quality 88 "$f" -page a4 "$f"ppm.pdf"
convert -compress JPEG -quality 88 "$f" -page a4 "$f"ppm.pdf
echo " Running tesseract -l deu "$f" "$f" pdf"
tesseract -l deu "$f" "$f" pdf
echo " Running pdftk "$f".pdf cat output ./.pdf/"$f"ocr.pdf"
pdftk "$f".pdf cat output ./.pdf/"$f"ocr.pdf
echo " Running rm "$f"ppm.pdf"
rm "$f"ppm.pdf
echo " Running rm "$f".pdf"
rm "$f".pdf
done
echo " Running pdftk *.pdf cat output ../outdocument.pdf"
pdftk ./.pdf/*.pdf cat output outOcrDocument.pdf
echo " Running rm ./.pdf/*.pdf"
rm ./.pdf/*.pdf
echo " Running rmdir .pdf"
rmdir .pdf
echo "Done"