운영체제 : Ubuntu 18.04
먼저 다음을 사용 tesseract-ocr
하여 설치하십시오 .
apt-cache show tesseract-ocr
sudo apt-get update && sudo apt-get upgrade
apt-get install tesseract-ocr --print-uris
apt-get install tesseract-ocr
sudo !!
tesseract와 함께 영어 이외의 언어를 사용하려는 경우 해당 언어 패키지를 설치해야합니다. 예를 들어 포르투갈어의 경우 다음을 수행해야합니다.
sudo apt-get install tesseract-ocr-por
그렇지 않으면 오류가 발생합니다.
Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/por.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your
"tessdata" directory.
Failed loading language 'por'
Tesseract couldn't load any languages!
Could not initialize tesseract.
Google "tesseract PDF"를 사용하면 다소 오래된 게시물 이있을 것입니다 . 그러나 유용한 힌트를 제공합니다. 먼저 .pdf
파일을 .tiff
하나로 변환해야 합니다 . 운영:
convert -density 125 originalfile.pdf -depth 8 -alpha Off newfile.tiff
오래된 게시물에서와 같이 추가를 잊어 버린 alpha -Off
경우 다음 오류가 발생합니다.
Tesseract Open Source OCR Engine v4.0.0-beta.1 with Leptonica
Error in pixReadFromTiffStream: spp not in set {1,3,4}
이제 최종 명령을 실행할 수 있습니다. 원본 PDF가 포르투갈어 인 경우에는 다음 명령이 필요합니다.
tesseract -l por newfile.tiff output pdf
생성 된 파일 이름은으로 지정 output.pdf
됩니다. 예를 들어, PDF가 프랑스어 인 경우 해당 파일을 설치 한 후 tesseract-ocr-fra
다음을 실행합니다.
tesseract -l fra newfile.tiff output pdf
그리고 원하는 파일은 다시됩니다 output.pdf
.