tl; dr? Nuance PowerPDF Advanced로 시작하십시오.
나는 2014 년 12 월에 대규모 프로젝트를 준비하면서 OCR 소프트웨어를 평가했습니다. 당신이 기꺼이 몇 백 달러를 쓰려면 많은 옵션이 있습니다. 몇 백 페이지 만 변환하면 시험판을 통해 얻을 수 있습니다.
많은 소프트웨어 패키지가 모든 입력 파일을로드하고 OCR을 수행하며 혼란을 단일 출력으로 통합하려고합니다. IMHO 이것은 잘못되었다, 나는 누가 그것을 원할지 모른다. 나는 진정한 배치를 찾고있었습니다 : 각 입력 파일마다 하나의 출력 파일, 무인 작업, 아무것도 멈추지 말고 마지막에 자세한 보고서를 제공하십시오. 스포일러 경고 : 찾지 못했습니다.
알파벳 순서의 패키지가 이어집니다. 아래에 표시된 가격은 정가이지만 할인액은 많습니다. 소금 한알의 정확성에 대한 나의 의견을 들으십시오. 입력 내용이 내 입력 내용과 같지 않으므로 마일리지가 확실히 달라질 수 있습니다.
ABBYY Finereader 12 Corporate : 400 달러 배치 기능을 "작업 관리자"라고하며 도구 메뉴에 있습니다. 하위 폴더를 포함한 폴더의 파일을 처리합니다. 각 입력 파일에 대해 별도의 출력 파일을 작성합니다. 입력 폴더 계층 구조를 유지할 수없는 것 같습니다. 모든 출력 파일은 동일한 출력 폴더로 이동했습니다. 내 테스트에서 정확도는 높았지만 여기에 나열된 패키지 중 가장 낮습니다.
Adobe Acrobat XI : 300 달러 배치 기능을 "텍스트 인식 / 여러 파일"이라고하며 도구 (메인 화면의 오른쪽 상단에있는 세 번째 도구 모음)를 클릭하면 찾을 수 있습니다. 각 입력에 대해 하나의 출력 인 하위 폴더를 처리합니다. 암호로 보호 된 파일을 찾으면 프롬프트를 중지하고 표시합니다. 기본적으로 입력 디렉토리 트리를 유지하지 않습니다. 출력을 입력과 같은 폴더에 쓰면됩니다. 내 테스트에서 정확도는 꽤 좋았습니다.
Nuance OmniPage Ultimate (일명 v19) : $ 500 배치 기능은 "DocuDirect"라고하며 패키지와 함께 제공되는 별도의 프로그램입니다. 폴더와 하위 폴더를 처리합니다. 기능을 바로 선택하면 출력 영역의 입력 디렉토리 트리가 유지됩니다. 각 입력에 대해 하나의 출력. 보호 된 파일의 비밀번호를 중지하고 요구합니다. 멀티 코어 프로세서를 활용하여 작업을 병렬로 실행할 수 있습니다. 정확성이 우수했습니다 . 그러나 배치 프로세서의 안정성은 좋지 않습니다. 퍼지 문서는 트랙에서 문서를 중지하고 복구하지 않으며 배치를 쉽게 탈선시킵니다.
Nuance PowerPDF Advanced v1.1 (OmniPage Ultimate의 후속) : $ 150. 배치 기능을 "배치 변환기"라고하며 기본 처리 프로그램의 고급 처리 탭에 있습니다. 폴더와 하위 폴더를 처리하여 출력의 입력 구조를 유지합니다. 각 입력에 대해 하나의 출력. 여러 코어를 사용하지만 적극적으로 사용하지는 않습니다. 그 의미는 멀티 코어 호스트를 포화시킬 수 없다는 것입니다. 정확도는 excllent 좋은으로, 또는 OMNIPAGE보다. 파일이 잘못되었거나 퍼지로 인해 파일이 중단되지 않았습니다. 배치 프로세서는 일반 텍스트 로그 파일을 출력 디렉토리에 씁니다 ( 충격 ).
ReadIris Corporate 14 : $ 600. 배치 기능은 기본 화면에서 "파일에서"버튼을 클릭하여 표시되는 "배치 OCR"항목에 의해 호출됩니다. 각 입력에 대해 하나의 출력으로 폴더와 하위 폴더를 처리하며 기본적으로 출력 디렉토리 구조는 입력 디렉토리 구조와 일치합니다. 유효하지 않은 파일에서 사용자 입력을 중지하고 요구합니다. 이미지를 OCR 링하여 명백히 모든 불만을 제기하지 않은 프로세스. Acrobat과 비교했을 때 정확도는 매우 우수했습니다.
데스크탑 컴퓨터 (듀얼 코어 만)에서 선택한 입력을 사용하여 모든 패키지가 페이지를 처리하는 데 최소 3 초가 걸렸습니다. 일부는 더 많이 가져 갔다. 더 많은 코어가있는 머신에서이를 다운시킬 수 있습니다.
잘못된 PDF (일부 패키지 중지), 암호로 보호 된 PDF (일부 패키지 중지, 다른 패키지는 어쨌든 변환) 및 회전 된 페이지 (세로 대신 가로)가 있습니다. 배치가 완료 될 때까지 실행하려면이 패키지의 입력 영역을 매우 신중하게 준비해야합니다. PDF에서 보호 기능을 제거하는 방법은 GhostScript 패키지의 PDF로 인쇄 기능을 참조하십시오.
큰 배치를 실행하면 메모리가 고갈되고 중단 문제가 발생할 수 있습니다. 전혀 자동화를하고 있다면 실제로 어떤 일이 일어 났는지, 즉 처리 할 수없는 문서, 처리 중 실패한 등의 문제를 발견하는 데 큰 문제가 있습니다. "로그 파일".
마지막으로 유료 고객 인 경우에도 이러한 대량 시장 패키지는 지원을 받기가 매우 어렵습니다. 예를 들어, 일부 대형 입력에 대한 패키지 (이름이없는 상태로 남아 있음)에 대해 존경하는 고객 지원 담당자에게 불만을 표시했습니다. 나는 포기하기 전에 36 시간을 기다렸다 :). 배치 크기를 300 개 문서로 제한하는 것이 좋습니다. 그것은 나에게 완전히 받아 들일 수 없었지만, 지원 티켓이 빨리 닫혔다는 것을 알았습니까? 그리고 그게 전부입니다. 한숨.
HTH