광학 문자 인식 소프트웨어 권장 사항


15

종이 버전에서 스캔 된 일부 전자 책 / 용지를 보았지만 전자 책 / 용지의 텍스트를 놀랍게 복사 할 수 있습니다. 직접 스캔 한 버전이 일부 광학 문자 인식 소프트웨어에서 처리 된 것으로 가정합니다.

추천 광학 문자 인식 소프트웨어가 무엇인지 알고 싶습니다. 특히 우분투를위한 것입니까, 무료입니까? Windows 용 제품이 훨씬 우수한 경우 알려주십시오.

특히 스캔 한 pdf 파일을 입력으로 받아들이고 입력 파일과 동일하지만 텍스트를 복사 할 수있는 다른 pdf 파일을 출력으로 생성 할 수있는 OCR에 관심이 있습니다.

감사합니다.

답변 당 하나의 소프트웨어를 제한하십시오

답변:


10

테서 랙트 OCR Tesseract OCR 설치

원래 엔진은 HP와 IBM이 80 년대 후반에 개발 한 것이지만 제가 사용한 최고의 안구 인식 소프트웨어 중 하나로 입증되었습니다. 최근 엔진에 대한 많은 업데이트가 진행되었으며 시장에서 가장 포괄적 인 OCR 도구 중 하나가되었습니다. 대부분의 다른 모든 OCR 도구 (90 % 이상의 텍스트 일치 항목 포함)와 비교하여 표준 문서 서체를 텍스트로 쉽게 변환 할 수 있습니다.

다음은 예입니다.

tesseract ScannedDocument.png out

out.txt라는 파일을 생성합니다


감사! Tesseract가 출력 PDF를 지원하는 것을 보지 못했습니다. 이것에 대해 알고 있습니까?
대한 StackExchange

@Tim, 기본적으로 Tesseract가 많은 입력 / 출력 형식을 지원한다고 생각하지 않습니다. 그러나 JanC의 답변에서 언급했듯이 gscan2pdf는 OCR에 Tesseract를 사용하며 이름에서 알 수 있듯이 PDF 출력을 지원합니다.
Tim Lytle

참고 OCR은 의미 있다고 광학 문자 인식 (OCR) : en.wikipedia.org/wiki/Optical_character_recognition을
호세 고메즈

8

이 작업을 수행 할 수있는 또 다른 프로젝트는 gscan2pdf입니다.

sudo apt-get install gscan2pdf

이 프로젝트는 Tesseract 및 기타 오픈 소스 OCR 도구를 사용할 수도 있습니다.


3

Ubuntu의 OCR을 모르지만 Windows의 경우 필요한 기능이있는 OCR이 있습니다. 그것은 ABBYY FineReader입니다. 이 페이지 이지만 무료는 아닙니다.


1
Tim이 원하는대로 FineReader를 사용했습니다 (보호 된 PDF를 열기 위해)
Extender

3

Repos , CunieForm (및 그놈 프론트 엔드 인 YAGF) 에 무료 솔루션이 있습니다.


감사! CunieForm은 pdf를 입력 및 출력 형식으로 지원합니까? Wikipedia 페이지와 공식 페이지에서 이것을 보지 못했습니다.
08 초에 대한 StackExchange

어쨌든 아니요, PDF를 TIFF 시리즈로 분할하는 것은 어쨌든 간단한 작업입니다 :)
Extender

3

Decapod 프로젝트 는 PDF로 내보내거나 PDF로 내보내는 것처럼 보이 므로 Tesseract는 어떻게하면 텍스트를 찾은 위치를 알기 위해 필요한 정보를 내 보내야합니다.


1

Adobe Acrobat (무료 응용 프로그램이 아닌 리더가 아님)은 스캔 한 PDF 문서를 OCR로 만들고 이미지 위에 보이지 않는 텍스트 레이어를 추가하여 텍스트를 선택하고 복사 할 수 있습니다. 불행히도 Acrobat의 UI에서 해당 기능이 어디에 있는지 확인하는 것이 편리하지는 않지만 언급 한 것과 동일한 목적으로 여러 번 성공적으로 사용했습니다.

예, 이것은 Linux가 아닌 Windows 소프트웨어이지만 Wine HQ 응용 프로그램 데이터베이스에 따르면 Wine에서 작동합니다 .


1

최상의 OCR 소프트웨어는 일반적으로 프린터 / 스캐너 / 복사기에 내장되어 있습니다. 내 사무실의 Canon IRC 3880은 내가 아는 어떤 데스크탑 프로그램보다 훨씬 쉽고 빠른 OCR 파일을 출력 할 수 있습니다. 책을 트레이에 놓고 (바인드 해제) 메일 주소를 선택하고 녹색 버튼을 누릅니다.

인터넷에서 찾을 수있는 대부분의 OCR pdf는 비슷한 기계를 위해 제공됩니다. 문제는 가정용으로 사용하기에는 가격이 너무 높다는 것입니다 (약 12000 유로 IRC).




당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.