가장 간단한 OCR 솔루션은 무엇입니까?


77

최소한의 번거 로움없이 누워있는 많은 양의 용지를 스캔하고 싶습니다. Simple Scan을 사용하여 이미지로 변환 한 다음 OCR을 사용하여 텍스트로 변환하고 싶습니다. 버튼을 누르면 좋은 결과를 얻을 수있는 GUI가있는 좋은 OCR 앱이 있습니까?


이 스레드에서 많은 재 작업이 필요합니다. 너무나 오래된 / 감가 상각 된 ... 하나의 라이너 테스트는 없습니다. 대부분 복사하여 붙여 넣은 결과 / 목록입니다. 품질 보증이 없습니다.
Léo Léopold Hertz 준영

2018 년에 가장 간단한 OCR 솔루션은 온라인 OCR API를 사용합니다 .Google Vision OCR, Azure OCR 또는 무료 OCR.space OCR API는 물론 애플리케이션 / 사용 사례가 클라우드 솔루션을 허용하는 경우에만 고품질 OCR 결과를 제공합니다. .
Nic Endo

답변:


70
  • GOCR from 은 OCR (Optical Character Recognition) 프로그램으로 스캔 한 텍스트 이미지를 텍스트 파일로 다시 변환합니다.

  • CLARA 는 또 다른 좋은 그래픽 옵션입니다.

  • OCRAD from 은 OCR을 독립형 콘솔 응용 프로그램이나 다른 프로그램의 백엔드로 사용할 수 있습니다.

  • KOOKA from 은 KDE 응용 프로그램이지만 잘 작동합니다. 또한 GOCR 및 OCRAD와 같은 실제 OCR 프로그램을 설치해야합니다. Kooka 및 OCR 프로그램을 설치 한 후 Kooka를 OCR 설치 위치로 지정해야합니다. JPEG를 텍스트로 변환하십시오.

  • OCRFeeder 에서이 문서의 레이아웃 분석 및 광학 문자 인식 시스템입니다.

  • Tesseract from 은 명령 줄 유틸리티이며 사용이 매우 간단합니다. 여기 에서언어 패키지 tesseract-ocr-eng 을 설치할 수 있습니다 .

페이지를보십시오 .

참고 : tesseract goto 터미널
을 실행 하고 다음을 입력하십시오.

tesseract imagefile.tif outputfile.txt

Tesseract는 TIFF 파일 만 읽을 수 있습니다. JPEG 또는 PDF 등이있는 경우 변환해야합니다. 또한 파일 이름 확장자는 .tiff가 아닌 .tif 여야하며, 그렇지 않으면 테서 랙트 오류가 발생합니다.


1
사용하는 언어가 영어가 아닌 경우 다른 언어에 대한 확장이 있습니까?
Vassilis

3
@Vassilis : OCR 시스템은 단어가 아닌 문자를 인식하기 때문에 언어에 독립적입니다. 그러나 알파벳에 키릴 자모와 같은 라틴 문자가 아닌 문자는 누락 될 수 있습니다.
OpenNingia

2
@OpenNingia : 라틴 문자 만 사용하는 필기 시스템에서도 언어가 중요 할 수 있습니다. OCR이 모호한 문자를 구별하는 데 도움이됩니다.
Frédéric Grosshans

13
이러한 질문 / 답변은 실제로 askubuntu를 엉망으로 만듭니다. 그 사람은 "리눅스에서 사용할 수있는 모든 OCR 앱이 아닌"최고의 가장 간단한 OCR 솔루션은 무엇입니까? "를 물었습니다. 이 솔루션은 받아 들여져서는 안됩니다! 정말 혼란스럽고 도움이되지 않습니다.
Alin Andrei

1
현재 Ubuntu tesseract(Ubuntu 15.10의 3.04.00)에는 PNG입력 파일에 문제가 없습니다 . JPG파일 을 받아들이지 만 추가적인 압축 아티팩트로 인해 예상되는 결과가 더 나쁩니다.
Volker Siegel

10

사용할 수있는 널리 사용되는 OCR 명령 줄 도구는 거의 없습니다 (GUI가 있는지 확실하지 않습니다).

  • Tesseract ( ReadMe , FAQ ) (Python)

    Tesseract .NET , Tesseract iOS 에서도 사용 가능

    1985 년에서 1995 년 사이에 HP Labs에서 개발되었으며 현재는 Google에서 개발 된 OCR 엔진입니다. Tesseract는 아마도 가장 정확한 오픈 소스 OCR 엔진 일 것입니다.

    용법:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    오픈 소스 문자 인식. 스캔 한 텍스트 이미지를 다시 텍스트 파일로 변환합니다. GOCR은 다른 프런트 엔드와 함께 사용할 수 있으므로 다른 OS 및 아키텍처로 쉽게 이식 할 수 있습니다. 다양한 이미지 형식을 열 수 있으며 품질이 매일 향상되고 있습니다.

  • OCRopus ™ ( FAQ ) (Python, NumPy 및 SciPy로 작성)

    OCR 시스템은 플러그 가능 레이아웃 분석, 플러그 가능 문자 인식, 통계 자연 언어 모델링 및 다국어 기능을 특징으로하는 문서 분석의 문제를 해결하기위한 대규모 기계 학습의 사용에 중점을 둡니다.

    OCRopus 엔진은 90 년대 중반에 개발되어 미국 인구 조사국에서 배포 한 고성능 필기 인식기와 새로운 고성능 레이아웃 분석 방법이라는 두 가지 연구 프로젝트를 기반으로합니다.

    OCRopus는 Google에서 개발을 후원하며 처음에는 처리량이 많은 대용량 문서 변환 작업을위한 것입니다. 우리는 또한 다른 많은 응용 분야에서 훌륭한 OCR 시스템이 될 것으로 기대합니다.

  • Tessnet2 (오픈 소스, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract는 C ++ 오픈 소스 OCR 엔진입니다. Tessnet2는 OCR을 수행하는 매우 간단한 방법을 제공하는 .NET 어셈블리입니다. Tessnet2는 tesseract와 같은 Apache 2 라이센스에 따라 상용 제품에 포함되어 원하는대로 사용할 수 있습니다.

다른 사람 : Linux 용 ABBYY CLI OCR , Asprise OCR

더 완전한 목록을 보려면 Wikipedia 의 광학 문자 인식 소프트웨어 목록을 확인하십시오.

참조 : wanghaisheng/awesome-ocr- 유망 OCR 자원의 큐레이터 목록 GitHub의에서합니다.


9

리눅스 인텔리전트 OCR 솔루션

면책 조항-나는이 오픈 소스 솔루션의 개발과 밀접하게 연결되어 있습니다

Lios는 스캐너 또는 카메라를 사용하여 인쇄물을 텍스트로 변환 할 수 있습니다.

또한 Pdf, 이미지 또는 이미지가 포함 된 폴더와 같은 다른 소스에서 스캔 한 이미지로 텍스트를 생성 할 수도 있습니다.

프로그램은 시각 장애인을위한 완벽한 접근성을 제공합니다.

나는 밀접하게 연결되어 있기 때문에 피드백을 원합니다.


사용법에 대한 설명서는 어디에 있습니까? lios는 내가 기대 한 것만 큼 직관적이지 않습니다.
코더

프로젝트가 여기 로 옮겼 습니다 .
Suzana

서버에서 헤드리스 모드로만 명령 행을 통해 실행할 수 있습니까?
교착 상태

8

Gscan2PDF

여러 페이지로 된 PDF 또는 스캔 한 문서의 OCR

아마도 가장 쉬운 방법 일 것입니다. Gscan2pdf는 파일을 스캔 할뿐만 아니라 파일을 가져 와서 OCR을 수행 할 수있는 그래픽 도구입니다. 여기 gscan2pdf 설치 , Ubuntu Software Center에서 또는 터미널에서이 명령을 실행하여 gscan2pdf를 설치 하십시오 .

sudo apt-get install gscan2pdf
  • gscan2pdf 실행
  • pdf 가져 오기 (Ctrl + O)
  • 선택 사항 : 도구> 정리
  • 도구> OCR 저장 (Ctrl + S)을 선택하십시오.

Gscan2PDF는 사용자 정의 가능한 OCR 엔진을 사용할 수 있습니다. 기본값은 tesseract-ocr

적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG패키지 LANG는 세 글자 ISO 639-2 언어 코드 인 패키지 를 설치해야 합니다. 현재 16.04 저장소에 108 개 언어가 있습니다.


이 소프트웨어로 아무것도 할 수 없습니다. 충분한 감지가 없습니다. 권장 사항 전에 앱에 대한 테스트 샘플을 얻는 것이 좋습니다.
Léo Léopold Hertz 준영

16.04의 gscan2pdf에는 최소한 Ctrl + i 옵션 단축키가 없습니다. pdf 파일을 열면 "추출 할 페이지"가 ​​올바르게 식별되지만 "확인"을 선택해도 아무 효과가 없습니다.
user75505

3

pdfocr.rb로 방금 성공했습니다 (16.04 미만) . 우분투 위키에 나와 있습니다.

여기에 ppa가 있지만 16.04의 저장소는 업데이트되지 않습니다. github의 위의 루비 스크립트는 여전히 16.04에서 작동합니다.

Github에서 다운로드 할 수 있습니다. 다음 패키지가 설치되어 있어야합니다.

ruby tesseract-ocr pdftk exactimage

그런 다음 pdfocr.rb를 실행 파일로 만들고 다음을 실행했습니다.

./pdfocf.rb -i source.pdf -o output.pdf

선택적으로 -l LANG매개 변수를 사용할 수 있습니다 . 이 경우 tesseract-ocr-LANG패키지 LANG는 세 글자 ISO 639-2 언어 코드 인 패키지 를 설치해야 합니다. 현재 16.04 저장소에 108 개 언어가 있습니다.


3

사용 pypdfocr하는 것이 가장 쉽고 쉬운 방법 은 pdf를 변경하지 않습니다. pypdfocr은 python 모듈 링크입니다.

pypdfocr your_document.pdf

마지막에는 your_document_ocr.pdf검색 가능한 텍스트로 원하는 방식으로 다른 것을 얻을 수 있습니다. 앱은 이미지 품질을 변경하지 않습니다. 오버레이 텍스트를 추가하여 파일 크기를 약간 늘립니다.

GUI가 필요없는 명령은 매우 쉽다고 생각합니다. 아마 pypdfocr 설치가 조금 더 장황합니다 :

sudo apt install tesseract-ocr 
pip install pypdfocr 

2018 년 11 월 3 일 업데이트 :

pypdfocr는 2016 년부터 더 이상 지원되지 않으며 유지되지 않아서 일부 문제를 발견했습니다. ocrmypdf( 모듈 은 비슷한 작업을 수행하며 다음과 같이 사용할 수 있습니다.

ocrmypdf in.pdf out.pdf

설치하기 위해서:

pip install ocrmypdf

또는

apt install ocrmypdf

OP는 PDF 샌드위치가 아닌 텍스트 파일을 생성하는 GUI 도구를 원했지만 매우 흥미로운 도구입니다. 프로젝트 웹 사이트를 포함시킬 수 있다면 좋을 것입니다.
Andrea Lazzarotto

@AndreaLazzarotto 네, 보았습니다. 그러나 comand가 단순하기 때문에 많은 사람들이 터미널을 사용할 수 있다고 생각합니다. 여기에 솔루션을 포함시키기가
어렵

1
우연의 일치로 최근에 나는 "ocrmypdf"를 발견했다. 당신은 그것을 확인 했습니까? 아주 좋다. :)
Andrea Lazzarotto

나는 그것이 :) 어떻게 작동하는지보고 그것을 밖으로 시도 할 것이다) @AndreaLazzarotto 당신이 대답을 게시 할 수있는 좋은 대안처럼 보인다
에드워드 Florinescu

보인다 @AndreaLazzarotto 우분투 16.04에 ocrmypdf를 설치하는 것을 간단하지 않습니다 github.com/jbarlow83/OCRmyPDF/issues/118
에드워드 Florinescu

3

그것이 아주 잘 작동하고 확실히 목록에 있어야하기 때문에 :

gimageReader
스크린 샷의 예 :

여기에 이미지 설명을 입력하십시오

그것은 repos에 있습니다 (18.10에 대답했지만 연령대에 사용했습니다)


gimageReader를 처음 시작했을 때 tesseract에 대한 "사용 가능한 언어 없음"메시지가 표시되었습니다. " tesseract 용 새 언어 팩을 설치하는 방법 "응답이 eng옵션 으로 표시되지 않지만 문제가 해결되었습니다! :) sudo apt install tesseract-ocr-eng터미널에서 실행 하면 트릭을 수행했습니다. 이것이 gimageReader의 도움말 파일이나 github의 "README"또는 다른 곳에 문서화되어 있으면 좋을 것입니다. 아마 여기처럼
Dɑvïd

1

gscan2pdf에는 3 개의 다른 ocr 엔진이 포함되어 있습니다. 프로그램으로 바로 스캔하거나 PDF를 프로그램으로 가져올 수 있습니다. Tesseract 엔진이 훌륭하고 사용하기 쉽다는 것을 알았습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.