OCR을 실행하고 검색 할 수없는 원본 파일을 검색 가능한 버전으로 바꾸어 기존 PDF 파일을 검색 가능하게 만드는 오프라인 스크립트 가능 도구를 찾고 있습니다.
예를 들어, www.pdfscannerapp.com-내가 원하는 것을 정확하게 수행하지만 GUI 만 가능하며 스크립트가 불가능합니다.
Evernote가 PDF 파일을 검색 가능하게 만들지 만 Evernote 내에서만 검색 가능하다는 것을 알고 있습니다.
나는 완벽한 OCR을 찾고 있지 않다. 적당히 수용 가능한 OCR조차도 괜찮지 만 부피가 큰 소프트웨어 패키지보다는 작은 유틸리티를 선호한다.
(나는 AD에 대해 비슷하지만 다른 질문을 알고 있습니다 : 스캔 할 수 있고 서명 가능한 PDF로 스캔하거나 변환 할 소프트웨어를 찾고 있지만 PDF 를 서명하거나 채울 필요는 없으며 솔루션은 스크립트 가능해야합니다)
편집하다:
1) 여러 유틸리티가 구조화 된 텍스트 추출을 허용하지만 추출하려면 텍스트가 있어야합니다. 주로 스캐너에서 생성 된 일반 PDF의 경우와 같이 비트 맵으로 래핑 된 PDF를 참조합니다.
2) 필자는 무료 솔루션을 반드시 찾고있는 것은 아니며 필요한 기능 만 수행하는 유용한 유틸리티를 구입하는 데 만족할 것입니다. OCR 기능만을 위해 구매하는 것이 정당한 비용이 아닙니다.
3) 위에서 언급 한 바와 같이, 나는 완벽한 OCR을 찾지 않고, 단지 적당한 OCR을 찾고 있습니다. 불행히도, 내 경험상, tesseract는 실제로 그 임계 값보다 낮습니다. 본인은 최소한 계좌 번호 (고객 번호)를 올바르게 인식 할 수 있도록 공공 요금 청구서 (OCR)를 청구 할 수있는 OCR을 "적절히 수용 할 수있는"것으로 정의합니다.
편집 : "스크립트 가능"또는 "자동화 가능", 즉 사람의 입력없이 자동으로 트리거되고 무인으로 실행할 수 있습니다.