주요 답변
내가 작업의 같은 종류에 관심이 있기 때문에 (OCR에 필요하지 불구하고 PDF 파일을, 그러나로 변환하는 DJVU 및 다음 나는의 DPI를 추측하는 데 필요한 있기 때문에 (OCR 그들에게), 나는 부족이 질문에 응답을 발견 픽셀 수의 이미지가 포함 된 이미지를 출력 한 다음 pdfinfo
다른 트릭 으로 출력 된 크기를 사용합니다 ( PDF 내의 이미지의 밀도가 다를 수 있음).
더 많은 연구를 한 결과 , 다음과 같이 ( poppler-utilspdfimages
패키지에서) 패키지를 사용할 수 있음을 발견했습니다 .
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
공지 사항 x-ppi
및 y-ppi
위의 목록에서. 또한 이미지가 PDF로 저장되는 형식을 보여줍니다 (때로는 JBIG2, 때로는 JPEG2000 등).
참고 : deptest.pdf
위에서 사용한 파일 은 의 저장소 에서pdfsizeopt
구할 수 있습니다 .
실제 행동
그런 다음 이미지 pdfimages
자체 를 추출 하거나 pdftoppm
( poppler-utils
)을 사용하여 전체 페이지를 원하는 형식 (예 : tiff,로 스캔)으로 렌더링 할 수 있습니다 tesseract
.
다음과 같은 것을 사용할 수 있습니다 ( imgs
이미지를 넣을 디렉토리를 만들었다 고 가정 ).
pdfimages -png Faraway-PRA.pdf imgs/prefix
파일은 다음 imgs
과 같이 디렉토리 로 이름이으로 시작 하여 디렉토리에 작성 prefix
됩니다.
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
그런 다음 scantailor
원하는 도구 나 원하는 도구로 적합한 수술을 수행 할 수 있습니다 .
더 직접적인 답변
PDF 파일 만 OCR하려는 경우 잘 유지 관리되고 이미 패키지 된 프로그램, 즉 ocrmypdf를 사용할 수 있습니다.
x-ppi
(DPI의 X 해상도)와y-ppi
(DPI에서 Y 해상도)의 이전 버전에 표시되지 않습니다pdfimages
예를 들어, 우분투 14.04 함께 제공한다. 그러나 Ubuntu 18.04에서 사용 가능한 항목에는 이러한 값이 포함됩니다.pdfimages -v
내 우분투 18.04 기계 쇼에 나는 버전 0.62.0 가지고 않습니다 이러한 기능을 가지고 있습니다.