Linux에서 pdftotext 명령을 사용하여 PDF에서 텍스트를 추출하려고 할 때 오류가 발생했습니다.


0

root @ kali : ~ / Desktop # pdftotext PaySlip.pdf

구문 오류 : 'endstream'누락 또는 잘못된 스트림 길이

이것은 무엇을 의미 하는가 ? PDF 파일의 끝을 찾을 수 없습니까?
도와주세요 .

답변:


0

PDF 파일에는 객체가 포함되어 있습니다. 객체는 스트림 (종종 압축)을 포함 할 수 있으며 스트림은로 종료됩니다 endstream. 텍스트 편집기에서 열어서 어떻게 보이는지 더 잘 알 수 있습니다.

따라서 지정된 스트림 길이가 원래 위치와 일치하지 않기 때문에 PDF 파일에서 하나 이상의 객체가 손상되었을 수 endstream있습니다. 다른 PDF 도구는이 불일치에 대해 신경 쓰거나 신경 쓰지 않을 수 있습니다 (이 때문에 PDF 파일로 재미있는 일을 할 수 있습니다).

따라서 : PDF 파일을 수동으로 수정하거나 다음과 같은 도구를 사용해 볼 수 있습니다 mutool.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.