Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다.
다음 명령을 실행할 때 :
pdfocr -t -l swe -i *.pdf -o newfile.pdf
완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다.
그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 다음 명령을 실행하면됩니다.
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
결과 파일은 올바른 PDF / A-1b 파일로 확인되지만 파일의 검색 가능성이 크게 바뀌 었습니다. 마치 Ghostscript가 OCR을 폐기하는 것처럼 보입니다.
누구나 무슨 일이 일어나고 있는지 알고 있습니까?
미리 감사드립니다.
/ 폴
아마도 pdfocr에 비정상적인 인코딩이있을 수 있습니다. 단계를 반대로 해 보았습니까 (준수한 다음 10 월)?
—
Yorik
글쎄, 나는 그렇게해서는 안된다고 생각합니다. PDF / A 호환은 파일을 잠급니다. 그 후에는 추가 할 수 없으며 파일 내에서 och alter를 빼십시오.
—
Paul Bergström
아마도 버그? "유니 코드"(utf / encode / magic) 문제? 비스듬한? github.com/tesseract-ocr/tesseract/issues/357
—
Yorik
Yorik, 당신이 옳은 것 같습니다! 이전에 귀하의 링크를 살펴본 결과 이제 Ghostscript에 오류가 발생하는 버그가 있다고 확신합니다. Ghostscript 팀이이 문제를 알고 있는지 궁금합니다.
—
Paul Bergström
현재 Ghostscript에 문제가있는 것 같습니다. 동일한 결과로 버전 9.19도 시도했습니다 .Java 기반 소프트웨어 인 PDFBox를 사용하여 PDF에서 PDF / A-1b로 변환하려고합니다. 누구든지 이것이 어떻게 수행되는지 조금이라도 알고 있습니까? 나는 이것을 사용하는 방법에 대한 일종의 사용법 설명을 찾고 있지만 지금까지는 성공하지 못했습니다.
—
Paul Bergström