작업중인 건물의지도가 포함 된 PDF 파일이 있습니다.
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
원래 소스 파일이 손실되었으며, I는 바람직하게는,지도 이미지를 추출하도록 요청했습니다 않고 그 위에 겹쳐 있었다 텍스트와 아이콘. 이것은 귀찮게 어려운 것으로 판명되었습니다.
지금까지 다음 GUI 프로그램을 시도했습니다.
- Adobe Reader : 텍스트를 선택할 수 있지만 배경 이미지는 선택할 수 없습니다
- FoxIt PDF Viewer : 텍스트를 선택할 수 있지만 배경 이미지는 선택할 수 없습니다
- Ubuntu 10.10의 XPDF : 배경 이미지가 아닌 텍스트를 선택할 수 있습니다.
또한 다음과 같은 명령 줄 프로그램도 있습니다.
- pdfimages : 배경 이미지가 아닌 욕실을 나타내는 아이콘을 추출합니다.
- pdftohtml : pdfimages와 동일하며 HTML 문서가 제대로 표시되지 않습니다.
- pdfextract : pdfimage와 동일
- 변환 : 이미지를 성공적으로 저장했지만 텍스트를 레코딩했습니다.
텍스트 편집기에서 수동으로 PDF를 열고 스트림 객체를 새 파일에 붙여 넣고 .jpg, .png 또는 .bmp 확장자 (각각)로 저장하여 스트림 객체를 추출하려고했습니다. PDF 파일의 내부 구조에 대해 내가 아는 것이 거의 없다는 것을 고려할 때 이것이 효과가 없다는 것은 놀라운 일이 아닙니다.
그래서 ... 텍스트와 아이콘을 얻지 않고도이 이미지에서지도 이미지를 검색 할 수있는 방법이 있습니까?
qpdf
이진 부분을 가능한 한 ASCII로 변환하는 데 사용 합니다. (2) 텍스트 편집기를 사용하여 화면이나 인쇄물에서 보지 않으려는 모든 텍스트를 보이지 않게하십시오 ( 보이지 않는 플래그 를 토글하여 XRef 테이블을 손상시키지 않고 쉽게 얻을 수 있습니다 ). (3) Ghostscript로 결과를 재 증류하여 가능한 한 크기를 줄입니다. -불행히도, 절차를 설명하기 위해 파일을 더 이상 다운로드 할 수 없습니다 ...