많은 PDF 파일에 대한 배치 OCR (아직 OCR이 아님)? [닫은]


9

Google 데스크톱 검색 (Vista에 있음)을 사용하는데 모든 PDF 파일이 아카이브 폴더에서 인식되는 것은 아닙니다. ' 스캔 이미지가 포함 된 PDF 파일 '은 색인이 생성되지 않으므로 일반적입니다 ( http://desktop.google.com/support/bin/answer.py?hl=ko&answer=90651 )

아직 OCR이 아닌 많은 PDF 파일을 OCR하고 싶습니다. 내 목표 : 프로그램에 폴더를 제공하고 하위 폴더에서 PDF로 PDF 파일로 변환 해야하는 PDF 파일을 단독으로 검색합니다.

참고 : 과거에 PDF 파일이 비밀번호로 보호 된 경우 다른 배치 (유료) 도구를 사용하여 비밀번호를 제거했습니다. verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

너무 비싸지 않은 아이디어가 있습니까?

나는 이미 시도했다 : 당시 xp에서 Finereader 6 pro, 그러나 배치 프로세서가 포함되어 있지 않았습니다 ... Paperfile paperfile.net Tesseract http://code.google.com/p/tesseract-ocr/ . 그러나 OCR은 PDF에서 PDF가 아닌 텍스트에서 PDF로만 제공됩니다. http://code.google.com/p/ocropus/ 프로젝트도 있습니다

미리 감사드립니다;)


1 년 후 업데이트 : 안녕하세요. ABBYY FineReader (> v. 9.0) Corporate & Site 라이센스 버전에만 포함 된 "ABBYY Hot Folder & Scheduling"소프트웨어가 도움이 될 수 있습니다 (시도하지 않았습니다 : 600 $!)! 또한 정팔 포체는 (지금 나를 위해 성공하지 지금은 윈도우 작업을해야한다 ()!
ERB

또한 ABBYY FineReader (> v. 9.0) Pro 버전에는 자동화 작업이 있습니다. 기본 폴더 + 하위 폴더를 선택하면 작업이 수행됩니다. 그러나 주요 문제는 모든 pdf를 한 번에 열고 (!!) 읽은 다음 (= ocr) 고유 한 pdf 파일을 저장한다는 것입니다! 당신이 PDF의 수백을 가지고 있다면 빌어 먹을 일이 나를 위해 작동하지 않습니다! ; (너무 나쁘다, 악몽!; (
Erb

답변:


6

tl; dr? Nuance PowerPDF Advanced로 시작하십시오.

나는 2014 년 12 월에 대규모 프로젝트를 준비하면서 OCR 소프트웨어를 평가했습니다. 당신이 기꺼이 몇 백 달러를 쓰려면 많은 옵션이 있습니다. 몇 백 페이지 만 변환하면 시험판을 통해 얻을 수 있습니다.

많은 소프트웨어 패키지가 모든 입력 파일을로드하고 OCR을 수행하며 혼란을 단일 출력으로 통합하려고합니다. IMHO 이것은 잘못되었다, 나는 누가 그것을 원할지 모른다. 나는 진정한 배치를 찾고있었습니다 : 각 입력 파일마다 하나의 출력 파일, 무인 작업, 아무것도 멈추지 말고 마지막에 자세한 보고서를 제공하십시오. 스포일러 경고 : 찾지 못했습니다.

알파벳 순서의 패키지가 이어집니다. 아래에 표시된 가격은 정가이지만 할인액은 많습니다. 소금 한알의 정확성에 대한 나의 의견을 들으십시오. 입력 내용이 내 입력 내용과 같지 않으므로 마일리지가 확실히 달라질 수 있습니다.

ABBYY Finereader 12 Corporate : 400 달러 배치 기능을 "작업 관리자"라고하며 도구 메뉴에 있습니다. 하위 폴더를 포함한 폴더의 파일을 처리합니다. 각 입력 파일에 대해 별도의 출력 파일을 작성합니다. 입력 폴더 계층 구조를 유지할 수없는 것 같습니다. 모든 출력 파일은 동일한 출력 폴더로 이동했습니다. 내 테스트에서 정확도는 높았지만 여기에 나열된 패키지 중 가장 낮습니다.

Adobe Acrobat XI : 300 달러 배치 기능을 "텍스트 인식 / 여러 파일"이라고하며 도구 (메인 화면의 오른쪽 상단에있는 세 번째 도구 모음)를 클릭하면 찾을 수 있습니다. 각 입력에 대해 하나의 출력 인 하위 폴더를 처리합니다. 암호로 보호 된 파일을 찾으면 프롬프트를 중지하고 표시합니다. 기본적으로 입력 디렉토리 트리를 유지하지 않습니다. 출력을 입력과 같은 폴더에 쓰면됩니다. 내 테스트에서 정확도는 꽤 좋았습니다.

Nuance OmniPage Ultimate (일명 v19) : $ 500 배치 기능은 "DocuDirect"라고하며 패키지와 함께 제공되는 별도의 프로그램입니다. 폴더와 하위 폴더를 처리합니다. 기능을 바로 선택하면 출력 영역의 입력 디렉토리 트리가 유지됩니다. 각 입력에 대해 하나의 출력. 보호 된 파일의 비밀번호를 중지하고 요구합니다. 멀티 코어 프로세서를 활용하여 작업을 병렬로 실행할 수 있습니다. 정확성이 우수했습니다 . 그러나 배치 프로세서의 안정성은 좋지 않습니다. 퍼지 문서는 트랙에서 문서를 중지하고 복구하지 않으며 배치를 쉽게 탈선시킵니다.

Nuance PowerPDF Advanced v1.1 (OmniPage Ultimate의 후속) : $ 150. 배치 기능을 "배치 변환기"라고하며 기본 처리 프로그램의 고급 처리 탭에 있습니다. 폴더와 하위 폴더를 처리하여 출력의 입력 구조를 유지합니다. 각 입력에 대해 하나의 출력. 여러 코어를 사용하지만 적극적으로 사용하지는 않습니다. 그 의미는 멀티 코어 호스트를 포화시킬 수 없다는 것입니다. 정확도는 excllent 좋은으로, 또는 OMNIPAGE보다. 파일이 잘못되었거나 퍼지로 인해 파일이 중단되지 않았습니다. 배치 프로세서는 일반 텍스트 로그 파일을 출력 디렉토리에 씁니다 ( 충격 ).

ReadIris Corporate 14 : $ 600. 배치 기능은 기본 화면에서 "파일에서"버튼을 클릭하여 표시되는 "배치 OCR"항목에 의해 호출됩니다. 각 입력에 대해 하나의 출력으로 폴더와 하위 폴더를 처리하며 기본적으로 출력 디렉토리 구조는 입력 디렉토리 구조와 일치합니다. 유효하지 않은 파일에서 사용자 입력을 중지하고 요구합니다. 이미지를 OCR 링하여 명백히 모든 불만을 제기하지 않은 프로세스. Acrobat과 비교했을 때 정확도는 매우 우수했습니다.

데스크탑 컴퓨터 (듀얼 코어 만)에서 선택한 입력을 사용하여 모든 패키지가 페이지를 처리하는 데 최소 3 초가 걸렸습니다. 일부는 더 많이 가져 갔다. 더 많은 코어가있는 머신에서이를 다운시킬 수 있습니다.

잘못된 PDF (일부 패키지 중지), 암호로 보호 된 PDF (일부 패키지 중지, 다른 패키지는 어쨌든 변환) 및 회전 된 페이지 (세로 대신 가로)가 있습니다. 배치가 완료 될 때까지 실행하려면이 패키지의 입력 영역을 매우 신중하게 준비해야합니다. PDF에서 보호 기능을 제거하는 방법은 GhostScript 패키지의 PDF로 인쇄 기능을 참조하십시오.

큰 배치를 실행하면 메모리가 고갈되고 중단 문제가 발생할 수 있습니다. 전혀 자동화를하고 있다면 실제로 어떤 일이 일어 났는지, 즉 처리 할 수없는 문서, 처리 중 실패한 등의 문제를 발견하는 데 큰 문제가 있습니다. "로그 파일".

마지막으로 유료 고객 인 경우에도 이러한 대량 시장 패키지는 지원을 받기가 매우 어렵습니다. 예를 들어, 일부 대형 입력에 대한 패키지 (이름이없는 상태로 남아 있음)에 대해 존경하는 고객 지원 담당자에게 불만을 표시했습니다. 나는 포기하기 전에 36 시간을 기다렸다 :). 배치 크기를 300 개 문서로 제한하는 것이 좋습니다. 그것은 나에게 완전히 받아 들일 수 없었지만, 지원 티켓이 빨리 닫혔다는 것을 알았습니까? 그리고 그게 전부입니다. 한숨.

HTH


Chrislott 님, 자세한 답변 감사합니다. ;) 고맙습니다. ;) 4 년이 지난 지금도 폴더에서 자동 OCR을 수행하고 완료되면 오류가있는 로그 파일을 해제하기에 완벽한 소프트웨어는 아직 없습니다! ... 아마도 Nuance에 연락을 시도 할 것입니다.
Erb

지금은 구 버전의 Acrobat pro와 여러 프리웨어를 사용합니다. 긴 과정입니다. 필요한 경우 자세하게 설명 할 수 있습니다! 그러나 작업은 가능한 한 최선을 다합니다! ;)
Erb

3

Adobe Acrobat은 PDF 폴더를 처리하며 대부분의 Adobe 제품과 마찬가지로 30 일의 평가판이 있습니다.
이 기능은 '문서'메뉴에 있습니다.

문서> OCR 텍스트 인식> OCR을 사용하여 여러 파일의 텍스트 인식

폴더를 추가 할 수 있습니다.

Acrobat X에서이 기능은 다음과 같이 사용할 수 있습니다.

도구> 텍스트 인식> 여러 파일에서

"펠름"감사합니다. ;) 시간이 허락 할 때 시도해 볼 것입니다. finereader.abbyy.com의 이전 시험에서 내가 좋아 한 점은 여러 언어를 인식 할 수 있다는 것입니다. ;)
Erb

1

실제로 pdfsandwich 는 작년에 업데이트되었으며 Linux Mint에 설치하기가 전혀 어렵지 않았습니다. 결과는 Adobe Acrobat보다 열등하지만, 지금까지 Linux에서 찾은 유일한 실행 가능한 솔루션입니다.


1
매우 흥미로운! 나는 그것에 대해 몰랐다. en.wikisource.org/wiki/… 에서 링크를 추가하고 있으며 향후 어느 시점에서 테스트 할 것입니다. (실제로 많은 솔루션이 있지만 여기서 시작하지는 않습니다!)
Nemo

0

WatchOCR을 사용해보십시오 . 스캔 한 이미지를 텍스트 검색 가능한 PDF로 변환하는 오픈 소스 소프트웨어 패키지입니다. 무료이며 오픈 소스이며 원격 관리를위한 멋진 웹 인터페이스가 있습니다. 올바른 구성을 사용하면 smb 공유를 통해 전체 네트워크에 대한 배치 pdf / ocr 서비스를 작성하는 데 사용됩니다. 불행히도 그것은 리눅스입니다. 그러나 오래된 서버에 설치하면 조직 전체에서 사용할 수 있습니다.

아무것도 설치하지 않고 온라인에서 동일한 작업을 수행하려면 PDFCubed.com을 사용해보십시오 .


불구하고 WatchOCR 홈페이지는 쪼그려되어 보관
토비아스 Kienzler을
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.