0
OCR의 내장 텍스트를 유지하면서 Tesseract로 인코딩 된 PDF를 압축하는 방법은 무엇입니까?
PDF를 OCR에 Tesseract를 사용하여 실험 해 왔으며 특히 Adobe Acrobat과 같은 도구가 제대로 인식 할 수없는 독일어 Fraktur 텍스트 (구식 고딕 양식 인쇄)를 사용하는 경우에 대부분 성공했습니다. 문제는 Tesseract의 출력 파일이 다소 커서 OCR 후 압축하고 싶습니다. 그러나 Ghostscript를 사용하여 파일을 압축하면 포함 된 OCR 텍스트가 엉망이됩니다. 마찬가지로 ImageMagick을 사용하면 …