재미있는 OCR 상황


2

Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다.

다음 명령을 실행할 때 :

pdfocr -t -l swe -i *.pdf -o newfile.pdf

완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다.

그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 다음 명령을 실행하면됩니다.

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

결과 파일은 올바른 PDF / A-1b 파일로 확인되지만 파일의 검색 가능성이 크게 바뀌 었습니다. 마치 Ghostscript가 OCR을 폐기하는 것처럼 보입니다.

누구나 무슨 일이 일어나고 있는지 알고 있습니까?

미리 감사드립니다.

/ 폴


아마도 pdfocr에 비정상적인 인코딩이있을 수 있습니다. 단계를 반대로 해 보았습니까 (준수한 다음 10 월)?
Yorik

글쎄, 나는 그렇게해서는 안된다고 생각합니다. PDF / A 호환은 파일을 잠급니다. 그 후에는 추가 할 수 없으며 파일 내에서 och alter를 빼십시오.
Paul Bergström

아마도 버그? "유니 코드"(utf / encode / magic) 문제? 비스듬한? github.com/tesseract-ocr/tesseract/issues/357
Yorik

Yorik, 당신이 옳은 것 같습니다! 이전에 귀하의 링크를 살펴본 결과 이제 Ghostscript에 오류가 발생하는 버그가 있다고 확신합니다. Ghostscript 팀이이 문제를 알고 있는지 궁금합니다.
Paul Bergström

현재 Ghostscript에 문제가있는 것 같습니다. 동일한 결과로 버전 9.19도 시도했습니다 .Java 기반 소프트웨어 인 PDFBox를 사용하여 PDF에서 PDF / A-1b로 변환하려고합니다. 누구든지 이것이 어떻게 수행되는지 조금이라도 알고 있습니까? 나는 이것을 사용하는 방법에 대한 일종의 사용법 설명을 찾고 있지만 지금까지는 성공하지 못했습니다.
Paul Bergström
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.