재미있는 OCR 상황

Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다.

다음 명령을 실행할 때 :

pdfocr -t -l swe -i *.pdf -o newfile.pdf

완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다.

그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 다음 명령을 실행하면됩니다.

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

결과 파일은 올바른 PDF / A-1b 파일로 확인되지만 파일의 검색 가능성이 크게 바뀌 었습니다. 마치 Ghostscript가 OCR을 폐기하는 것처럼 보입니다.

누구나 무슨 일이 일어나고 있는지 알고 있습니까?

미리 감사드립니다.

/ 폴

— 폴 버그 스트롬
소스

아마도 pdfocr에 비정상적인 인코딩이있을 수 있습니다. 단계를 반대로 해 보았습니까 (준수한 다음 10 월)?

— Yorik

글쎄, 나는 그렇게해서는 안된다고 생각합니다. PDF / A 호환은 파일을 잠급니다. 그 후에는 추가 할 수 없으며 파일 내에서 och alter를 빼십시오.

— Paul Bergström

아마도 버그? "유니 코드"(utf / encode / magic) 문제? 비스듬한? github.com/tesseract-ocr/tesseract/issues/357

— Yorik

Yorik, 당신이 옳은 것 같습니다! 이전에 귀하의 링크를 살펴본 결과 이제 Ghostscript에 오류가 발생하는 버그가 있다고 확신합니다. Ghostscript 팀이이 문제를 알고 있는지 궁금합니다.

— Paul Bergström

현재 Ghostscript에 문제가있는 것 같습니다. 동일한 결과로 버전 9.19도 시도했습니다 .Java 기반 소프트웨어 인 PDFBox를 사용하여 PDF에서 PDF / A-1b로 변환하려고합니다. 누구든지 이것이 어떻게 수행되는지 조금이라도 알고 있습니까? 나는 이것을 사용하는 방법에 대한 일종의 사용법 설명을 찾고 있지만 지금까지는 성공하지 못했습니다.

— Paul Bergström