DJVU를 PDF로 변환


39

DJVU 문서를 PDF 문서로 변환하여 텍스트 레이어이미지 를 분리하고 보존하면서 DJVU 와 구조유지 하려고합니다. 우분투에서 어떻게 할 수 있습니까?

(그런 다음 Calibre 를 사용하여 ePub / Mobi로 변환 할 것이므로이 전체 프로세스에 Caliber 플러그인이 있으면 나에게 완벽 할 것입니다!)

참고 1 : Evince에서 인쇄, DJview에서 내보내기 또는 ddjvu 패키지를 사용하는 것은 텍스트 레이어를 버리고 이미지 만 저장하므로 적절한 솔루션 이 아닙니다 .

주 2 : 사용 DJVULibre하는 것 같다 에만 텍스트 레이어를 추출 사진이 추출되지 않습니다 . 마찬가지로 텍스트를 "수동으로"복사하면 문서 구조와 그림이 모두 손실됩니다.

답변:


37

방법 1

DJView를 사용하고 PDF로 내보내기

  1. Goto 시냅틱 패키지 관리자
  2. DJview4 설치
  3. DJview 실행 (응용 프로그램-그래픽-DJView4)
  4. .djvu 문서를여십시오
  5. : 메뉴-다른 이름으로 내보내기 : PDF

방법 2

evince에서 djvu 파일을여십시오.
print ----> Print to file
change .ps to .pdf를 선택하고 print를 클릭하십시오.

방법 3

  1. Goto 시냅틱 패키지 관리자
  2. 설치

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. 터미널로 가서 쓰기

     sudo apt-get install libtiff-tools
    
  4. djvu 파일이있는 디렉토리로 이동하십시오. 마우스 오른쪽 버튼을 클릭하십시오. “Open In Terminal”옵션으로 이동하십시오. 그것을 클릭하십시오. 터미널이 열립니다.

  5. 그 터미널에서 쓰기

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

방법 4

온라인 변환기 DjVu to PDF 변환기도 있습니다


@Ashu 사진을 검색 하시겠습니까?
건초

예, 방법 1과 2가 저에게 효과적이었습니다. 3과 .4 시도하지
않았다

@Ashu 사진을 추출하거나 단순히 전체 페이지를 복사합니까? (그 말이
맞나요

어떤 방법을 시도 했습니까? 사용 해보고 작동하는지 확인하십시오
Ashu

2
이미지 나 텍스트를 검색하지 않습니다.
hayd

17

일반적인 방법이 아닌 몇 가지 방법이 있습니다.

  1. ocrodjvu
  2. Google에서 찾을 수있는 자체 요구 사항이있는 pdfbeads

djvu2hocr( ocrodjvu패키지에서) 명령 을 사용 하여 DjVu 파일에서 숨겨진 텍스트 레이어를 추출 할 수 있습니다 ( OCR 등을 수행하지 않고 지오메트리로 텍스트 레이어 만 추출).

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed 개입은 출력 hOCR에서 클래스 이름을 정정합니다 (단순 HTML 파일 임).

이제 다음을 사용하여 DjVu 페이지를 TIFF 형식으로 추출합니다.

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

우리는 다음 파일을 작업 폴더에 넣습니다.

sample.djvu
pg10.html
pg10.tif

여기가 시작 pdfbeads되고 우리는 간단하게 실행합니다.

pdfbeads -o pg10.pdf

그런 다음이 멋진 프로그램은이 폴더 안에있는 모든 것을 처리하고 (기본 이름이 같은 HTML 및 TIFF 파일) 일부 부산물로 출력 PDF 파일을 생성합니다.

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

입력 DjVu 파일과 동일하며 내부에 텍스트 레이어가 있습니다.

여기에 이미지 설명을 입력하십시오

댓글 요약 :

아래의 긴 설명은 DjVu 문서 페이지의 작은 이미지를 별도의 객체로 표현하는 것에 대해 설명합니다. DjVu 문서 페이지 자체는 선택적인 텍스트 레이어가있는 단일 이미지이므로 작은 이미지에 대한 정보는 별도의 객체가 아니기 때문에 쉽게 불가능합니다. DjVu 문서에 컬러 이미지가있는 경우 일반적으로 배경 레이어에 배치됩니다. 이 경우 사용자는 ddjvu(배경 레이어 만 추출) 및 imagemagick(자동 자르기) 와 같은 도구를 사용하여 전체 캔버스 대신 이미지 만 출력 할 수 있지만 PDF 출력을 만들기 위해 자동화 할 수는 없습니다.

또 다른 건전하지만 느린 접근 방식은 일반 OCR GUI 도구를 사용하는 것입니다. gscan2pdf(> 1.0)은 Linux PC의 가능한 후보로 제안됩니다


이것이 개별 사진 데이터를 추출하지 않고 전체 페이지의 이미지 만 추출한다고 생각하는 것이 맞습니까?
14시 44 분

DjVu 파일 구조를 참조 할 때 "개별 그림 데이터"란 무엇입니까?
zetah

PDF 위에 배치 된 작은 이미지로 문서에서 그림을
자를

DjVu 파일 구조에는 이러한 정의가 없습니다. 원본 DjVu 문서의 위 이미지 예는 문자 이미지와 함께 전경 레이어 / 마스크에 "배치"되며 설명에 따라 추출 된 별도의 텍스트 레이어가 있습니다. DjVu 문서에 컬러 이미지가있는 경우 전체 페이지의 공통 레이어 DjVu 파일에서 배경 레이어에 배치됩니다. DjVu 문서 페이지의 이미지가 별도의 객체라고 생각할 수도 있지만 DjVU 문서 페이지를 선택적인 텍스트 레이어가있는 단일 이미지로 보면 기본적으로 그게 다입니다.
zetah

1
@zetah-주석에 제공 한 추가 정보는 구조의 그림 배치 및 추출시 예상되는 정보에 대한 귀중한 정보를 제공하므로 실제로 답변에 추가해야합니다.
fossfreedom

4

djvu2pdf는 하지만 다른 인쇄 옵션이 될 수 있도록이 고스트 스크립트에 의존합니다. 나는 그것이 신용을주는 것보다 더 영리한 경우를 대비하여 여전히 당신에게 그것을 제안하는 것이 좋습니다.

그것은 repos에 없지만 제조사 사이트에서 deb를 다운로드 할 수 있습니다 : http://0x2a.at/s/projects/djvu2pdf

** 리포지토리 외부에서 다운로드 / 설치에 관한 필수 공지 사항을 여기에 삽입하십시오 **


1
djvu2pdf는 ddjvu 를 사용하여 PDF로 내보내고 텍스트 없이 이미지를 내보내는 것을 두려워 합니다.
16:59에

4

DJVULibre를 사용하면 다음 terminal명령을 통해 텍스트 레이어를 추출 할 수 있습니다 .

djvutxt myfile.djvu > myfile-ocr.txt 또는 djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(둘 다 같은 일을하고 여기 에서 발견 되었습니다 )

포맷하려면 약간의 노력이 필요하고 (많은 기호가 올바르게 변환되지 않기 때문에) 사진이 복구되지 않습니다 .


이 기능은 그림이없는 책을 DJVU 형식으로 변환하는 데 유용하지만 그림이있는 문서에는 적합하지 않습니다. 이것은 현재 나에게 현재 솔루션이며 텍스트를 추출하는 유일한 솔루션입니다. 서식과 사진을 보존하는 방법이 훨씬 선호됩니다!
건초

0

http://www.djvu-pdf.com/- 이 웹 사이트를 사용하면 djvu를 pdf로 변환 할 수 있습니다.


난 이미 웹 사이트 형제 게시 한
아슈

이것은 가짜 사이트 인 것 같습니다. 변환 후이 메시지가 나타납니다. 죄송합니다. 해당 파일을 다운로드하지 못할 수 있습니다.
corev

0

가장 쉬운 방법은 gscan2pdf를 사용하여 djvu를 가져온 다음 tesseract를 사용하여 OCR 한 다음 pdf로 저장하는 것입니다. pdf의 OCR 텍스트는 원래 djvu와 약간 다를 수 있으며 변환하는 데 시간이 걸릴 수 있지만이 방법은 쉬운 일이 아니며 작동합니다.


1
안녕하세요, 이것을 더 유용한 anwer로 만들기 위해 gscan2pdf와 tesseract를 어디서 어디서 구할 수 있는지 좀 더 자세하게 설명 할 수 있습니다.
NGRhodes

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.