pdftotext, pdf2txt.py, ... 여러 프로그램을 시도했습니다. 모든 PDF에서 텍스트를 추출 할 수 있지만 더 나은 작업을 수행하는 것이 좋습니다 less
. PDF의 텍스트가 올바른 레이아웃을 갖습니다. 이 작업이 덜 어떻습니까? 라이브러리를 사용 중입니까, 아니면 PDF 처리 기능이 내장되어 있습니까?
이 기능을 프로그래밍 방식으로 사용하고 싶기 때문에 외부 프로그램 (파이썬을 사용하고 있음)으로 실행해야 할 필요가 없습니다.
내 시스템은 :
» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman
less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less
» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
pdftotext -layout $1 -