현재 Foxit의 PDF 리더를 사용하고 있으며 최근 인터넷에서 이미지를 다운로드했지만 PDF 파일 안에 있습니다. 이 이미지는 어떻게 추출합니까?
운영 체제는 Windows 7입니다.
현재 Foxit의 PDF 리더를 사용하고 있으며 최근 인터넷에서 이미지를 다운로드했지만 PDF 파일 안에 있습니다. 이 이미지는 어떻게 추출합니까?
운영 체제는 Windows 7입니다.
답변:
이미지의 원래 픽셀 해상도가 필요없는 빠른 방법은 ALT와 Print Screen 버튼을 누르는 것입니다. 그런 다음 이미지를 원하는 곳에 붙여 넣기를 선택하십시오.
해상도를 유지하는 다른 방법은 Adobe Photoshop과 같은 이미지 편집 프로그램에서 PDF를 열어서 사용하는 것입니다.
pdfimages.exe
편리합니다.
Windows 용 XPDF ( 여기 ) 를 다운로드 하면 내부에 .exe 파일이 몇 개 있습니다. "설치"없이 실행할 수 있습니다. 다음 pdfimages.exe
과 같이 사용하십시오 .
pdfimages.exe -help
도움말 화면이 표시됩니다.
pdfimages.exe ^
-j ^
c:\path\to\your.pdf ^
c:\path\to\where\you\want\images\prefix\
그러면 모든 JPEG가 prefix-00N.jpg로 추출되고 다른 모든 이미지는 prefix-00N.ppm (Portable PixMap)으로 추출됩니다.
[ ComFreek 편집 : 대상 경로에서 슬래시를 확인하십시오. 이는 모든 이미지를 상위 디렉토리로 추출하지 않으려는 경우에 중요합니다.] -
{ KurtPfeifle 편집 : ComFreek의 의견에 동의하지 않지만 떠나십시오. 독자들에게 결과 자체의 차이를 테스트하고 알아내는 것입니다. 압축을 푼 파일에 사용 ..\prefix
된 이미지 이름 앞에 접두사를 붙이는 것처럼 후행 슬래시를 사용하지 않는 원래 매개 변수 입니다.}
pdfimages.exe ^
-j ^
-f 11 ^
-l 13 ^
c:\path\to\your.pdf ^
c:\path\to\where\you\want\images\prefix\
이전과 동일하지만 이미지 추출을 11 페이지 ( 'f'= 첫 번째)에서 13 ( 'l'= 마지막)으로 제한합니다.
반면에 나는 Poppler의 버전을pdfimages
선호합니다. 특히이 새로운 기능을 획득했기 때문에 : -list
PDF에 포함 된 이미지와 일부 속성을 나열 (추출하지 않음)하기 위해 명령 줄에 추가하십시오 . 예:
pdfimages-목록 -f 7 -l 8 ct-magazin-14-2012.pdf 페이지 번호 유형 너비 높이 색상 보정 bpc enc interp 객체 ID -------------------------------------------------- ------------------- 7 0 이미지 581838 rgb 3 8 jpeg no 39 0 7 1 이미지 44 rgb 3 8 이미지 번호 40 0 7 2 이미지 314332 rgb 3 8 jpx no 44 0 7 3 이미지 358430 rgb 3 8 jpx no 45 0 7 4 이미지 44 RGB 3 8 이미지 No 46 0 7 5 이미지 44 rgb 3 8 이미지 no 47 0 7 6 이미지 4 6 rgb 3 8 이미지 번호 48 0 7 7 이미지 596462 rgb 3 8 jpx no 49 0 7 8 이미지 4 6 rgb 3 8 이미지 번호 50 0 7 9 이미지 44 rgb 3 8 이미지 no 51 0 7 10 이미지 8 10 rgb 3 8 이미지 번호 41 0 7 11 이미지 6 6 rgb 3 8 이미지 번호 42 0 7 12 이미지 113 27 rgb 3 8 jpx no 43 0 8 13 image 582 839 grey jpeg no 2080 0 8 14 이미지 334464 회색 1 8 jpx no 2079 0
다시 한 번 참고 하십시오.이 버전은 pdfimages
Poppler의 버전이고 (XPDF의 새로운 기능은이 새로운 기능을 지원 하지 않습니다 ) 버전은 v0.20.2 이상이어야합니다.
convert
. Linux, Windows, MacOS X 및 무엇을 사용할 수 있습니다. 가장 쉬운 사용 사례 : convert some.ppm some.jpeg
.
pdfimages
하며 일부 사람들은이를 사용하는 것을 선호 할 수 있습니다.
PDF를 Inkscape 로 가져 와서 작업 할 수 있습니다. Inkscape는 한 번에 한 페이지 만 열리지 만 페이지 내용을 완전히 제어 할 수 있습니다. PDF에서 벡터 그래픽을 쉽게 추출하고 조작 할 수 있습니다.
그러나 PDF에서 래스터 이미지를 추출하려면 pdfimages
XPDF를 사용하는 것이 더 쉽다고 확신합니다 (그러나 SVG 파일에서 포함 된 이미지를 추출하는 방법을 학습 한 후에도 여전히 잉크 스케이프를 사용해 볼 수 있습니다 ).
소프트웨어를 설치하지 않고도이 기능이 이미 내장 된 PDF-XChange Viewer ( Portable Version 선택)로 전환 할 수 있습니다
여러 페이지를 여러 페이지 TIFF로 저장할 수 있습니다
이 방법은 전체 PDF 페이지를 이미지로 변환하는 동안 Sumatra PDF를 사용하여 @Laurenz에서 설명한 방법 은 이미지가 혼합 된 컨텐츠 (이미지 + 텍스트)가있는 PDF 페이지에서 이미지를 추출하려는 경우에 우수합니다.
Sumatra PDF 는 재래 스터 화없이 이미지를 클립 보드로 직접 복사 할 수있는 빠르고 가벼운 오픈 소스 PDF 리더입니다.
MuPDF 는 AGPL 라이센스에 따라 릴리스 된 새로운 (2006 년에 제작 된) 다중 플랫폼 (데스크톱 및 모바일) PDF 뷰어입니다. 그것은 같은 Ghostscript 사람들에 의해 유지됩니다.
PDF에서 이미지를 추출하는 명령 줄 도구가 포함되어 있습니다.
mutool extract [options] file.pdf [object numbers]
extract 명령은 PDF에서 이미지 및 글꼴 파일을 추출하는 데 사용할 수 있습니다. 명령 행에 객체 번호가 없으면 모든 이미지와 글꼴이 추출됩니다.
-p password
Use the specified password if the file is encrypted.
-r Convert images to RGB when extracting them.
사용 pdftocairo
에서 poppler toolkit
. pdf 이미지를 추출하여 원하는 형식으로 변환 할 수 있습니다. 항상 이미지를 생성하고 ppm이나 그와 같은 쓰레기를 생성하지 않습니다. 다음 명령은 pdf 페이지를 jpg 이미지로 숨 깁니다.
pdftocairo.exe -jpeg "my.pdf" "my"
Windows의 경우 여기에서 얻을 수 있습니다. http://blog.alivate.com.au/poppler-windows/
Linux에서도 사용할 수 있습니다.
http://www.sumnotes.net/ 는 메모, 하이라이트 및 이미지를 추출하는 온라인 도구입니다. 나는 논문을 위해 대학에서 광범위하게 사용했으며 정말 만족했습니다.
일반적으로 기본 해상도에서 'pdfimages'가 포함 된 이미지를 추출한 다음 ImageMagick의 필요한 형식으로 변환을 사용하십시오.
$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName # save in .ppm format
$ convert fileName-000.ppm fileName-000.png
이것은 가장 작은 결과 파일을 생성합니다.
참고 : 손실 JPG 임베디드 이미지의 경우 -j를 사용해야했습니다.
$ pdfimages -j fileName.pdf fileName # save in .jpg format
거의 제공되지 않은 Win 플랫폼에서는 http://blog.alivate.com.au/poppler-windows/ 에서 최신 (0.37, 2015) 'poppler-util'바이너리를 다운로드해야했습니다.
업데이트 : 최근 "poppler-util"0.50+ (2016)에서 pdfunite에는 손실없는 압축 비트 맵을 .png로, 손실 압축 된 비트 맵을 .jpg로 추출하는 "-all"옵션이 있으므로 간단합니다.
$ pdfimages -all fileName.pdf 파일 이름
항상 최상의 품질의 컨텐츠를 PDF에서 추출