많은 스캐너가 페이지를 PDF 파일로 스캔 할 수 있습니다.
이 작업이 완료되면 PDF 파일이 실제로 단일 이미지를 포함하는 컨테이너입니까? 이 이미지는 일반적으로 JPG 이미지, PDF 이미지 또는 독점 형식입니까?
많은 스캐너가 페이지를 PDF 파일로 스캔 할 수 있습니다.
이 작업이 완료되면 PDF 파일이 실제로 단일 이미지를 포함하는 컨테이너입니까? 이 이미지는 일반적으로 JPG 이미지, PDF 이미지 또는 독점 형식입니까?
답변:
이 링크 에 따르면 , PDF는 JPEG 또는 JPEG2000 인코딩을 사용하여 이미지를 찢어 내거나 다시 만들지 않습니다.
PDF 파일은 일반적으로 이미지를 원시 이진 데이터가 포함 된 별도의 객체 (XObject)로 이미지를 저장합니다.
이 이미지는 일반적으로 Tif 또는 Jpg 또는 Png 이미지라는 의미의 이미지가 아니라 픽셀에 대한 이진 데이터, 이미지에 사용 된 색상 공간, 이미지에 대한 정보라는 점을 이해하는 것이 중요합니다. PDF가 작성 될 때 이미지가 분리되고 다른 PDF 작성 도구가 동일한 이미지를 매우 다른 방식으로 저장할 수 있습니다.
원시 이미지 데이터가 페이지에 필요한 크기로 조정되는 경우도 있으며,이 경우 데이터를 그릴 때 크기가 조정되거나 축소되지 않는 경우도 있습니다. 다른 PDF 작성 도구는 매우 다른 방식으로 PDF 파일을 작성합니다.
실제 픽셀 데이터는 압축 될 수 있으며 압축 형식 (DCTDecode) 중 하나는 JPEG에서와 동일합니다 (JPX는 Jpeg2000과 동일). 이 데이터를 저장하면 JPEG 파일로 열 수 있지만 색상 공간 데이터를 포함하도록 변경해야 할 수도 있습니다.
그런 다음이 이미지는 PDF 내용 스트림에 그려집니다. 눈에 이미지로 나타나는 일부 항목은 여러 이미지로 구성되거나 전혀 이미지로 구성되지 않을 수도 있습니다!
따라서 PDF에서 이미지를 추출하려면 모든 원시 데이터에서 이미지를 어셈블해야합니다. 이미지를 완전한 이미지 파일로 저장하지 않아도됩니다.