일반적인 방법이 아닌 몇 가지 방법이 있습니다.
- ocrodjvu
- Google에서 찾을 수있는 자체 요구 사항이있는 pdfbeads
djvu2hocr
( ocrodjvu
패키지에서) 명령 을 사용 하여 DjVu 파일에서 숨겨진 텍스트 레이어를 추출 할 수 있습니다 ( OCR 등을 수행하지 않고 지오메트리로 텍스트 레이어 만 추출).
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
개입은 출력 hOCR에서 클래스 이름을 정정합니다 (단순 HTML 파일 임).
이제 다음을 사용하여 DjVu 페이지를 TIFF 형식으로 추출합니다.
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
우리는 다음 파일을 작업 폴더에 넣습니다.
sample.djvu
pg10.html
pg10.tif
여기가 시작 pdfbeads
되고 우리는 간단하게 실행합니다.
pdfbeads -o pg10.pdf
그런 다음이 멋진 프로그램은이 폴더 안에있는 모든 것을 처리하고 (기본 이름이 같은 HTML 및 TIFF 파일) 일부 부산물로 출력 PDF 파일을 생성합니다.
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
입력 DjVu 파일과 동일하며 내부에 텍스트 레이어가 있습니다.
댓글 요약 :
아래의 긴 설명은 DjVu 문서 페이지의 작은 이미지를 별도의 객체로 표현하는 것에 대해 설명합니다. DjVu 문서 페이지 자체는 선택적인 텍스트 레이어가있는 단일 이미지이므로 작은 이미지에 대한 정보는 별도의 객체가 아니기 때문에 쉽게 불가능합니다. DjVu 문서에 컬러 이미지가있는 경우 일반적으로 배경 레이어에 배치됩니다. 이 경우 사용자는 ddjvu
(배경 레이어 만 추출) 및 imagemagick
(자동 자르기) 와 같은 도구를 사용하여 전체 캔버스 대신 이미지 만 출력 할 수 있지만 PDF 출력을 만들기 위해 자동화 할 수는 없습니다.
또 다른 건전하지만 느린 접근 방식은 일반 OCR GUI 도구를 사용하는 것입니다. gscan2pdf
(> 1.0)은 Linux PC의 가능한 후보로 제안됩니다