스캔 한 문서에서 텍스트 추출


10

스캔 한 문서에서 텍스트를 선택할 수있는 방법이 있습니까? (출력은 jpg입니다) Ubuntu는 이러한 작업을 수행하기 위해 어떤 도구를 제공합니까? 사전 빌드 소프트웨어 바이너리 대신 사용할 수있는 라이브러리가 있습니까? Imagemagick을 사용하여 .pdf로 변환 한 다음 텍스트를 선택하려고했지만 분명히 작동하지 않았습니다.

답변:


9

이 절차 유형의 이름은 OCR (광학 문자 인식)입니다. 이 링크는 또한 몇 가지 선택 사항을 제공합니다.

gocr-명령 행 OCR
fuzzyocr-이미지 첨부 파일을 확인하는 spamassassin 플러그인
libhocr0-히브리어 OCR
ocrad-광학 문자 인식 프로그램
ocrfeeder-문서 레이아웃 분석 및 광학 문자 인식 시스템
문어-문서 분석 및 OCR 시스템
tesseract-ocr
설형 문자-다국어 OCR 시스템 

그리고 Tesseract ( 아주 오래된 튜토리얼 )가 더 좋은 옵션 이라고 제안합니다 . 시도해보십시오.


3

얼마 전 우분투의 다양한 OCR 패키지를 평가 한 결과 Tesseract가 패키지 중에서 가장 나쁘지만 (Tefseract는 TIFF와 같은 입력 형식을 모호하기 때문에) OCR을위한 래퍼 스크립트를 작성했습니다. 여기 내 ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

김프로 이미지를 전처리 (임계 값 도구를 사용하여 흑백으로 변환)하면 많은 도움이되었습니다.

그 이후로 상황이 개선되기를 바랍니다. 최근 블로그 게시물에서 OCR Feeder라는 이름을 보았습니다.


2

Tesseract-ocr 패키지는 명령 행입니다. GUI가있는 프로그램을 원한다면 "gscan2pdf"를 사용하고 우분투 소프트웨어 센터에서 찾을 수 있습니다.

gscan2pdf에서 상단 근처에있는 작은 스캔 아이콘을 클릭하기 만하면됩니다. 나는 그것이 당신에게 두 가지 또는 세 가지 옵션을 제공한다고 생각합니다. GOCR은 좋지 않으며 Tesseract는 훌륭하게 작동합니다. Tesseract를 선택하면이 시점에서 적절한 탭을 클릭하여 해상도 설정을 찾을 수 있습니다. 가장 좋은 방법은 300 또는 600이며 Tesseract가 잘 할 것입니다.

잘못 스캔되거나 구부러 지거나 오래된 문서는 제대로 변환되지 않습니다. 행운을 빕니다!

PS .. 나는 Tesseract가 TIFF 이미지 만 읽을 수 있다는 것을 계속 읽습니다. 이것은 나에게 해당되지 않습니다. JPG 또는 PNG도 가져올 수 있습니다.

PPS ... 편집 내용이 미안합니다! 소프트웨어 센터에서도 OCRFeeder를 사용해 볼 수 있습니다. 그래도 아직 시도하지 않았습니다.



0

Linux Mint 17.2 x32 Cinnamon이 있습니다. 아마도이 단계는 Ubuntu 14.04 x32에서도 작동합니다.

  1. Tesseract OCR 설치 sudo apt-get install -y tesseract-ocr tesseract-ocr-eng 추가 패키지를 설치하여 다른 언어를 추가 할 수 있습니다. 이 스크린 샷은 시냅틱의 시냅틱 : Tesseract 언어 패키지입니다.

Tesseract 사용

옵션 1-커맨드 라인에서 터미널을 연 다음 이미지 파일 (jpg, png)을 보관하는 폴더로 이동하여 명령을 실행하십시오.

a) 모든 이미지 파일을 텍스트로 변환

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

모든 텍스트 파일을 하나로 병합하려면 명령을 실행하십시오. cat *.txt >> all.txt

b) 모든 이미지 파일을 hocr 파일로 변환

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

옵션 2-GUI 별

a) gImageReader를 설치하고 사용하십시오

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) 두 번째 응용 프로그램은 VietOCR입니다. 실제 버전은 4.0이므로 VietOCR-4.0.zip을 다운로드하십시오.

파일을 풀고 Java로 VietOCR.jar을 엽니 다.

Java로 VietOCR 열기 Java가 설치되어 있지 않으면 리포지토리에서 설치하거나 공식 Oracle Java 8을 설치할 수 있습니다. Ubuntu 14.04에서 Oracle Java 8을 설치하는 단계

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

VietOCR을 추천합니다. PDF 파일을 OCR로 변환 할 수 있기 때문에 대량 변환도 옵션입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.