PDF가 덜 표시되는 방법은 무엇입니까?


52

pdftotext, pdf2txt.py, ... 여러 프로그램을 시도했습니다. 모든 PDF에서 텍스트를 추출 할 수 있지만 더 나은 작업을 수행하는 것이 좋습니다 less. PDF의 텍스트가 올바른 레이아웃을 갖습니다. 이 작업이 덜 어떻습니까? 라이브러리를 사용 중입니까, 아니면 PDF 처리 기능이 내장되어 있습니까?

이 기능을 프로그래밍 방식으로 사용하고 싶기 때문에 외부 프로그램 (파이썬을 사용하고 있음)으로 실행해야 할 필요가 없습니다.

내 시스템은 :

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

답변:


63

당신의 배포판은 아마도 유명한 lesspipe.sh스크립트를 사용하고있을 것입니다 . LESSOPEN환경 변수를 확인하십시오 .

이 스크립트는 여러 변형이 있습니다. 젠투 버전을보고 있습니다. 그 안에 다음 줄이 있습니다.

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

즉, 명령을 표시된 순서대로 시도합니다. $1파일 이름입니다.

다른 버전 은 다음 명령을 사용합니다.

pdftohtml -stdout "$t" | parsehtml -

15
감사합니다, 그것은 사용하고있는 것으로 나타났습니다pdftotext -layout $1 -
dangonfast

@ jeckyll2hide 더 나은 결과를 위한 설명을 적게 찾았습니까 ?
vvy

@vvy 아마 -layout스위치. ;)
Daniel B
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.