PDF 파일에서 이미지를 추출하는 방법

49

현재 Foxit의 PDF 리더를 사용하고 있으며 최근 인터넷에서 이미지를 다운로드했지만 PDF 파일 안에 있습니다. 이 이미지는 어떻게 추출합니까?

운영 체제는 Windows 7입니다.

— studiohack
소스

최고 품질의 추출은 이미지가 pdf 내에 이미 저장된 형식으로 추출하는 것입니다. (적어도 PDF에서 이미지가 작동하는 방식이라고 생각합니다.)

— quack quixote

4

이미지의 원래 픽셀 해상도가 필요없는 빠른 방법은 ALT와 Print Screen 버튼을 누르는 것입니다. 그런 다음 이미지를 원하는 곳에 붙여 넣기를 선택하십시오.

해상도를 유지하는 다른 방법은 Adobe Photoshop과 같은 이미지 편집 프로그램에서 PDF를 열어서 사용하는 것입니다.

— UserSuUserDo
소스

1

Photoshop에서 PDF 문서를 열면 '일반 PDF 형식 래스터 화'대화 상자가 나타나므로 해상도를 유지할 수 없습니다. PS7로 테스트했습니다. 최신 버전의 Photoshop이 다른가요?

— AffineMesh

1

말했듯이 [alt] + [prnscr]은 원래 픽셀 해상도를 유지하지 않습니다 (현재 화면 / 모니터가 사용하는 모든 해상도를 사용함).

— Kurt Pfeifle

1

@studiohack, @UserSuUserDo : [alt] + [prnscr]를 사용하면 원본 해상도를 놓칠 수있을뿐만 아니라 완전한 PDF 뷰어 창을 그림으로 볼 수 있습니다. 이것은 많은 사용 사례에 대해 '충분히 좋을'수 있습니다. 그러나 때로는 PDF 페이지에만 포함 된 그래픽을 원할 수도 있습니다. 여기 pdfimages.exe편리합니다.

— Kurt Pfeifle

1

또는 W7에 내장 된 스나이핑 도구를 사용하여 원하는 영역을 캡처하십시오.

— Moab

70

Windows 용 XPDF ( 여기 ) 를 다운로드 하면 내부에 .exe 파일이 몇 개 있습니다. "설치"없이 실행할 수 있습니다. 다음 pdfimages.exe과 같이 사용하십시오 .

pdfimages.exe -help

도움말 화면이 표시됩니다.

pdfimages.exe ^
    -j ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

그러면 모든 JPEG가 prefix-00N.jpg로 추출되고 다른 모든 이미지는 prefix-00N.ppm (Portable PixMap)으로 추출됩니다.

[ ComFreek 편집 : 대상 경로에서 슬래시를 확인하십시오. 이는 모든 이미지를 상위 디렉토리로 추출하지 않으려는 경우에 중요합니다.] -
{ KurtPfeifle 편집 : ComFreek의 의견에 동의하지 않지만 떠나십시오. 독자들에게 결과 자체의 차이를 테스트하고 알아내는 것입니다. 압축을 푼 파일에 사용 ..\prefix된 이미지 이름 앞에 접두사를 붙이는 것처럼 후행 슬래시를 사용하지 않는 원래 매개 변수 입니다.}

pdfimages.exe ^
    -j ^
    -f 11 ^
    -l 13 ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

이전과 동일하지만 이미지 추출을 11 페이지 ( 'f'= 첫 번째)에서 13 ( 'l'= 마지막)으로 제한합니다.

최신 정보:

반면에 나는 Poppler의 버전을pdfimages 선호합니다. 특히이 새로운 기능을 획득했기 때문에 : -listPDF에 포함 된 이미지와 일부 속성을 나열 (추출하지 않음)하기 위해 명령 줄에 추가하십시오 . 예:

pdfimages-목록 -f 7 -l 8 ct-magazin-14-2012.pdf

  페이지 번호 유형 너비 높이 색상 보정 bpc enc interp 객체 ID
  -------------------------------------------------- -------------------
     7 0 이미지 581838 rgb 3 8 jpeg no 39 0
     7 1 이미지 44 rgb 3 8 이미지 번호 40 0
     7 2 이미지 314332 rgb 3 8 jpx no 44 0
     7 3 이미지 358430 rgb 3 8 jpx no 45 0
     7 4 이미지 44 RGB 3 8 이미지 No 46 0
     7 5 이미지 44 rgb 3 8 이미지 no 47 0
     7 6 이미지 4 6 rgb 3 8 이미지 번호 48 0
     7 7 이미지 596462 rgb 3 8 jpx no 49 0
     7 8 이미지 4 6 rgb 3 8 이미지 번호 50 0
     7 9 이미지 44 rgb 3 8 이미지 no 51 0
     7 10 이미지 8 10 rgb 3 8 이미지 번호 41 0
     7 11 이미지 6 6 rgb 3 8 이미지 번호 42 0
     7 12 이미지 113 27 rgb 3 8 jpx no 43 0
     8 13 image 582 839 grey jpeg no 2080 0
     8 14 이미지 334464 회색 1 8 jpx no 2079 0

다시 한 번 참고 하십시오.이 버전은 pdfimagesPoppler의 버전이고 (XPDF의 새로운 기능은이 새로운 기능을 지원 하지 않습니다 ) 버전은 v0.20.2 이상이어야합니다.

— 커트 파이 플
소스

1

@harlev : 대한 구글 ImageMagick를 . 여기에는 무엇이든으로 변환 할 수있는 명령 줄 도구가 있습니다 convert. Linux, Windows, MacOS X 및 무엇을 사용할 수 있습니다. 가장 쉬운 사용 사례 : convert some.ppm some.jpeg.

— 커트 파이 플

3

참고 : XPDF는 얼마 전에 포폴 러 라이브러리 와 같이 적극적으로 유지 관리되지 않습니다 . Poppler도 제공 pdfimages하며 일부 사람들은이를 사용하는 것을 선호 할 수 있습니다.

— MvG

1

@BurhanKhalid : 사전 구축 된 바이너리 현재 위치 : sourceforge.net/projects/poppler-win32

— 커트 Pfeifle

2

@KurtPfeifle 불행히도 그것들은 전혀 exe 파일을 포함하지 않습니다.

— Chris

3

나는 이것이 오래된 것을 알고 있지만 누군가가 Windows 바이너리를 찾고 있다면 공유하고 싶었습니다. blog.alivate.com.au/poppler-windows

— Aivan Monceller

8

PDF를 Inkscape 로 가져 와서 작업 할 수 있습니다. Inkscape는 한 번에 한 페이지 만 열리지 만 페이지 내용을 완전히 제어 할 수 있습니다. PDF에서 벡터 그래픽을 쉽게 추출하고 조작 할 수 있습니다.

그러나 PDF에서 래스터 이미지를 추출하려면 pdfimagesXPDF를 사용하는 것이 더 쉽다고 확신합니다 (그러나 SVG 파일에서 포함 된 이미지를 추출하는 방법을 학습 한 후에도 여전히 잉크 스케이프를 사용해 볼 수 있습니다 ).

— 데 닐슨 사 마이 아
소스

김프 ( gimp.org )는 PDF를 가져오고 조작 할 수있는 다른 그래픽 디자인 도구입니다. 그러나 김프 기능과 잉크 스케이프의 기능이 어떻게 다른지 잘 모르겠습니다.

— coderworks

@coderworks : 김프는 가져온 PDF 페이지를 지정된 해상도로 래스터 화합니다. 즉, "Print Screen"을 사용하는 것보다 약간 낫습니다. 반면 Inkscape는 원본 래스터 이미지뿐만 아니라 원본 벡터 데이터도 보존합니다.

— Denilson Sá Maia

5

소프트웨어를 설치하지 않고도이 기능이 이미 내장 된 PDF-XChange Viewer ( Portable Version 선택)로 전환 할 수 있습니다

전체 또는 선택된 페이지를 이미지로 내 보냅니다.
출력 형식 : PNG, JPG, TIFF, BMP
DPI, 압축 수준, 그레이 스케일 선택
여러 페이지를 여러 페이지 TIFF로 저장할 수 있습니다

^{클릭하면 확대}

이 방법은 전체 PDF 페이지를 이미지로 변환하는 동안 Sumatra PDF를 사용하여 @Laurenz에서 설명한 방법 은 이미지가 혼합 된 컨텐츠 (이미지 + 텍스트)가있는 PDF 페이지에서 이미지를 추출하려는 경우에 우수합니다.

— nixda
소스

2

@MarkSeemann 따라갈 수 없습니다. "소프트웨어를 설치하지 않고"는 이러한 맥락에서 사용 가능한 휴대용 버전이 있음을 의미합니다. 휴대용 소프트웨어를 정의별로 "설치"할 수 없습니다. 다운로드, 추출 및 시작 만하면됩니다.

— nixda

3

"DPI 선택"이 필요하다는 사실은 그 목적을 상실합니다. 래스터 이미지 (픽셀 배열)의 크기를 조정하고 있으며 래스터 이미지의 크기를 조정하면 품질과 정보가 손실됩니다.

— 앤서니

PPM 파일을 png 또는 jpeg로 변환 하시겠습니까?

— Kiquenet

4

Sumatra PDF 는 재래 스터 화없이 이미지를 클립 보드로 직접 복사 할 수있는 빠르고 가벼운 오픈 소스 PDF 리더입니다.

— 로렌츠
소스

3

MuPDF 는 AGPL 라이센스에 따라 릴리스 된 새로운 (2006 년에 제작 된) 다중 플랫폼 (데스크톱 및 모바일) PDF 뷰어입니다. 그것은 같은 Ghostscript 사람들에 의해 유지됩니다.

PDF에서 이미지를 추출하는 명령 줄 도구가 포함되어 있습니다.

mutool extract [options] file.pdf [object numbers]

extract 명령은 PDF에서 이미지 및 글꼴 파일을 추출하는 데 사용할 수 있습니다. 명령 행에 객체 번호가 없으면 모든 이미지와 글꼴이 추출됩니다.

-p password
       Use the specified password if the file is encrypted.

-r     Convert images to RGB when extracting them.

— 데 닐슨 사 마이 아
소스

2

사용 pdftocairo에서 poppler toolkit. pdf 이미지를 추출하여 원하는 형식으로 변환 할 수 있습니다. 항상 이미지를 생성하고 ppm이나 그와 같은 쓰레기를 생성하지 않습니다. 다음 명령은 pdf 페이지를 jpg 이미지로 숨 깁니다.

pdftocairo.exe -jpeg "my.pdf" "my"

Windows의 경우 여기에서 얻을 수 있습니다. http://blog.alivate.com.au/poppler-windows/

Linux에서도 사용할 수 있습니다.

— MSS
소스

이 명령은 (OP가 요청한대로) PDF에 포함 된 이미지를 추출 하지 않습니다 . 대신 완전한 PDF 페이지를 이미지 형식으로 변환합니다. 이 답변은 묻는 질문에 맞지 않습니다.

— Kurt Pfeifle

1

http://www.sumnotes.net/ 는 메모, 하이라이트 및 이미지를 추출하는 온라인 도구입니다. 나는 논문을 위해 대학에서 광범위하게 사용했으며 정말 만족했습니다.

— 디모데
소스

무료 평가판이 제한된 상업용. 또한 온라인이므로 개인 정보를 보장 할 수 없습니다!

— anthony

-1

일반적으로 기본 해상도에서 'pdfimages'가 포함 된 이미지를 추출한 다음 ImageMagick의 필요한 형식으로 변환을 사용하십시오.

$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName   # save in .ppm format
$ convert fileName-000.ppm fileName-000.png

이것은 가장 작은 결과 파일을 생성합니다.

참고 : 손실 JPG 임베디드 이미지의 경우 -j를 사용해야했습니다.

$ pdfimages -j fileName.pdf fileName   # save in .jpg format

거의 제공되지 않은 Win 플랫폼에서는 http://blog.alivate.com.au/poppler-windows/ 에서 최신 (0.37, 2015) 'poppler-util'바이너리를 다운로드해야했습니다.

업데이트 : 최근 "poppler-util"0.50+ (2016)에서 pdfunite에는 손실없는 압축 비트 맵을 .png로, 손실 압축 된 비트 맵을 .jpg로 추출하는 "-all"옵션이 있으므로 간단합니다.

$ pdfimages -all fileName.pdf 파일 이름

항상 최상의 품질의 컨텐츠를 PDF에서 추출

— 발레리오
소스

이전에 Kurt Pfeifle의 답변에있었습니다.

— daniel.neumann