Acrobat의 OCR 기능과 유사한 방식으로 스캔 한 PDF 파일의 OCR을 자동화하는 도구가 있습니까? [닫은]

오픈 소스를 선호하지만 필수는 아닙니다.

나는 Adobe Acrobat 8을 가지고 있으며 실제로 OCR 기능을 좋아합니다.이 기능은 스캔 된 문서 위에 보이지 않는 OCR 텍스트 레이어를 본질적으로 넣을 수 있습니다. 따라서 화면에 보이는 것은 스캔 한 원본 문서이지만 결과는 검색 가능합니다.

내가 찾고있는 것은이 프로세스를 자동화하는 방법입니다. 현재 스캔 한 파일을 처리하고 보관하는 데 사용하는 몇 가지 스크립트가 있으며이 배치 프로세스에 바로 연결하여 Acrobat으로 수행 할 수있는 것과 비슷한 방식으로 OCR을 수행 할 수있는 스크립트를 찾고 있습니다.

모든 제안을 환영합니다, 감사합니다!

pdf document-management ocr

— 보덴
소스

추신-수퍼 유저에 대한 사용자 질문을 유지하려고합니다. 그러나이 질문의 결과는 스캔 된 문서를 처리 한 서버에서 확실히 작동하므로 버려졌습니다.

— Boden

답변:

회사 문서 보관 프로젝트에서 구현했습니다. 스캔 한 파일은 tif 파일입니다 (단일 페이지). 그런 다음 Cuneiform 을 사용하여 단일 tif의 hocr 파일을 작성하십시오. 그런 다음 hocr2pdf 를 사용 하여 PDF 파일을 출력하십시오. 스캔 페이지가 여러 개인 경우 gs를 사용하여 PDF를 단일 PDF 문서로 결합합니다. 실제로 잘 작동합니다. OCR은 우리의 요구에 충분히 적합하며 모든 PDF 뷰어에서 검색 할 수 있습니다.

— 제온
소스

흥미 롭군 너무 많은 시간을 들여보기 전에 텍스트 레이어가 포함 된 원본 스캔의 이미지가 PDF인지 아니면 텍스트입니까?

— Boden

텍스트 레이어가 포함 된 원본 스캔 이미지입니다. hocr 파일은 html 마크 업이있는 텍스트 출력입니다.

— xeon

우수한. 나는 그것을 쐈다. 작동하는 것 같으면 답변을 수락 한 것으로 표시합니다. 감사!

— Boden

다시 감사합니다. 이 두 사람을 설치하는 데 약간의 고통이 있지만 작동합니다. 나는 cuneiform 및 hocr2pdf를 실행하는 새로운 .tif 파일에 대한 FTP 폴더를 확인하는 간단한 스크립트를 작성한 다음 curl을 사용하여 결과를 sharpoint 문서 라이브러리에 업로드합니다. 따라서 사람들은 복사기에서 바로 문서를 보관할 수 있으며 보관소는 전체 텍스트 검색이 가능합니다. 질문 : hocr2pdf의 "해상도 덮어 쓰기"옵션이 무엇인지 알고 있습니까?

— Boden

나는 그것이 당신을 위해 일하고있어 기쁘다. 나는 -r 인수가하는 것을 모른다.

— 제온

WatchOCR을 보셨습니까? http://www.watchocr.com 에서 다운로드 할 수 있습니다. 이미지 만 pdf를 감시 폴더 또는 네트워크 공유에서 검색 가능한 텍스트 pdf로 변환하는 무료 오픈 소스 OCR 서버입니다.

— 랑그 너
소스

OCRopus 는 많은 재미처럼 들리지만 나는 제온의 대답 소리를 좋아합니다.

— 카라 마피아
소스

다른 솔루션을 연구하고 테스트 할 때 나는 그것을 시도하고 tesseract-ocr 그들은 당시 PDF로 출력하는 좋은 방법이 없었습니다. 그들이 그 기능을 가지고 있는지 조사하지 않았다 ... 나는 tesseract-ocr가 그들의 타임 라인에 그것을 가지고 있다는 것을 안다 ...

— xeon