답변:
이 절차 유형의 이름은 OCR (광학 문자 인식)입니다. 이 링크는 또한 몇 가지 선택 사항을 제공합니다.
gocr-명령 행 OCR fuzzyocr-이미지 첨부 파일을 확인하는 spamassassin 플러그인 libhocr0-히브리어 OCR ocrad-광학 문자 인식 프로그램 ocrfeeder-문서 레이아웃 분석 및 광학 문자 인식 시스템 문어-문서 분석 및 OCR 시스템 tesseract-ocr 설형 문자-다국어 OCR 시스템
그리고 Tesseract ( 아주 오래된 튜토리얼 )가 더 좋은 옵션 이라고 제안합니다 . 시도해보십시오.
얼마 전 우분투의 다양한 OCR 패키지를 평가 한 결과 Tesseract가 패키지 중에서 가장 나쁘지만 (Tefseract는 TIFF와 같은 입력 형식을 모호하기 때문에) OCR을위한 래퍼 스크립트를 작성했습니다. 여기 내 ~/bin/ocr
:
#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
echo "usage: ocr filename.jpg [...]"
echo "needs imagemagick and tesseract-ocr"
echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
convert "$fn" "$tmpdir/page.tif"
tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
cat "$tmpdir/page.txt"
cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"
김프로 이미지를 전처리 (임계 값 도구를 사용하여 흑백으로 변환)하면 많은 도움이되었습니다.
그 이후로 상황이 개선되기를 바랍니다. 최근 블로그 게시물에서 OCR Feeder라는 이름을 보았습니다.
Tesseract-ocr 패키지는 명령 행입니다. GUI가있는 프로그램을 원한다면 "gscan2pdf"를 사용하고 우분투 소프트웨어 센터에서 찾을 수 있습니다.
gscan2pdf에서 상단 근처에있는 작은 스캔 아이콘을 클릭하기 만하면됩니다. 나는 그것이 당신에게 두 가지 또는 세 가지 옵션을 제공한다고 생각합니다. GOCR은 좋지 않으며 Tesseract는 훌륭하게 작동합니다. Tesseract를 선택하면이 시점에서 적절한 탭을 클릭하여 해상도 설정을 찾을 수 있습니다. 가장 좋은 방법은 300 또는 600이며 Tesseract가 잘 할 것입니다.
잘못 스캔되거나 구부러 지거나 오래된 문서는 제대로 변환되지 않습니다. 행운을 빕니다!
PS .. 나는 Tesseract가 TIFF 이미지 만 읽을 수 있다는 것을 계속 읽습니다. 이것은 나에게 해당되지 않습니다. JPG 또는 PNG도 가져올 수 있습니다.
PPS ... 편집 내용이 미안합니다! 소프트웨어 센터에서도 OCRFeeder를 사용해 볼 수 있습니다. 그래도 아직 시도하지 않았습니다.
나는 이것을 Tesseract OCR이라고 불렀습니다.
Linux Mint 17.2 x32 Cinnamon이 있습니다. 아마도이 단계는 Ubuntu 14.04 x32에서도 작동합니다.
Tesseract 사용
옵션 1-커맨드 라인에서 터미널을 연 다음 이미지 파일 (jpg, png)을 보관하는 폴더로 이동하여 명령을 실행하십시오.
a) 모든 이미지 파일을 텍스트로 변환
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
모든 텍스트 파일을 하나로 병합하려면 명령을 실행하십시오. cat *.txt >> all.txt
b) 모든 이미지 파일을 hocr 파일로 변환
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
옵션 2-GUI 별
a) gImageReader를 설치하고 사용하십시오
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) 두 번째 응용 프로그램은 VietOCR입니다. 실제 버전은 4.0이므로 VietOCR-4.0.zip을 다운로드하십시오.
파일을 풀고 Java로 VietOCR.jar을 엽니 다.
Java로 VietOCR 열기 Java가 설치되어 있지 않으면 리포지토리에서 설치하거나 공식 Oracle Java 8을 설치할 수 있습니다. Ubuntu 14.04에서 Oracle Java 8을 설치하는 단계
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
VietOCR을 추천합니다. PDF 파일을 OCR로 변환 할 수 있기 때문에 대량 변환도 옵션입니다.