pdftotext보다 더 나은 pdf to text 변환기가 있습니까?


63

PDF 문서를 텍스트로 변환하기 위해 pdftotext (poppler-utils의 일부)를 사용하고 있습니다. 대부분의 경우 작동하지만 원하는 것은 단락을 묶지 않고 별도의 단락 사이에 빈 줄을 삽입하는 것이 었습니다.

이것을 위해 pdftotext를 얻는 방법이 있습니까? 그리고 그렇지 않다면, 이것을 할 수있는 또 다른 pdf to text 유틸리티가 있습니까?


8
제목에는 "pdftotext"(poppler-utils의 일부 임)라고 말하고 본문에는 "pdt2text"(알지 못함)라고 말합니다. 당신은 어느 것을 언급하고 있습니까?
enzotib

비슷한 질문 PDF to audio software for academic papers? softwarerecs.stackexchange.com/questions/10640/…
JinSnow

답변:


25

Calibreebook-convert 에서 시도해 볼 수 있습니다.

무엇이든, 나는 다른 방향으로 잘못한다고 말하고 싶습니다 : 너무 많은 줄 바꿈.

내가 확실히 고려해야 할 또 다른 것은 pdfreflow 사용 하여 HTML로 변환 한 다음 HTML을 TXT로 변환하는 것입니다.


참고 : ebook-convert여러 열 레이아웃을 변환 할 수 없으며 열을 하나의 열로 병합합니다. 다중 열 레이아웃의 경우 pdftotext훨씬 더 나은 출력을 생성합니다. 추가 제한 사항은 manual.calibre-ebook.com/conversion.html#convert-pdf-documents 에 설명되어 있습니다 .
asmaier

117

당신이 사용하는 경우 pdftotext을 당신은 사용할 수 있습니다 -layout귀하의 의견 PDF 파일의 페이지에있는 텍스트의 레이아웃을 유지하기 위해 플래그를 :

pdftotext -layout input.pdf output.txt

6
구체적으로 테이블 레이아웃에 대한 -table도 있으며 훌륭하게 작동합니다.
P.Windridge 2016 년

3
@ P.Windridge,이 테이블 옵션은 어디에 있습니까? 우분투 17.04에 poppler-utils의에서 버전 0.48.0에서 찾을 수 없습니다
gozzilli

2
@gozzilli 그건 방법 오래된. 최신 pdftotext는 v4.00이며 Xpdf 도구 tarball here 에서 사용할 수 있습니다 .
Adrian

2
@gozzilli 0으로 시작하는 버전은 Xpdf 원본 코드의 Popplers 분기임을 나타냅니다. 그들은 코드를 분기 할 때 버전 번호를 시작했습니다. 두 그룹 모두 이제 이러한 PDF 도구의 개별 버전을 유지하는 것으로 보입니다.
Andrew

1
@VivekSable 지정된 -r(해상도, 기본 72dpi ) 지점 (픽셀 )
vstepaniuk

14

오픈 소스 (및 자동화)의 팬으로서 나는 이것을 말하기를 싫어하지만, 방금 (복잡하고 복잡한 PDF에서) 얻은 최고의 결과는 Adobe Reader에서 파일을 연 다음 File | Save As Text를 선택하는 것이 었습니다.

(나는 독자가 아닌 텍스트 분석 실험을 전처리하고 있지만 첫 번째와 두 번째 선택은 동일 할 것이라고 생각합니다.)

출력을 나란히 비교했습니다. 두 번째 선택은 전자 책 변환입니다.

Adobe : 페이지 나누기를 위해 FF로 왼쪽, 페이지 번호로 왼쪽은 제목 / 단락을 한 줄로 변환하지 않았지만 하이픈이 고정되어 있습니다. PDF에 숨겨진 정크가 출력되지 않았습니다. 섹션 시작시 "T he"가 아니라 "T he"가 아닌 "The"와 같은 큰 수도를 올바르게 확보했습니다.

ebook-convert : 페이지 번호가 남고 머리글 / 바닥 글에 숨겨진 정크가 있지만 FF는 없습니다. 대부분의 단락을 한 줄로 변환합니다. 그것이 놓친 것은 두 번 간격입니다! 글 머리 기호가 항상 텍스트와 일치하는 것은 아닙니다. 이 장의 시작 부분에 "The"가 올바르게 있습니다.

pdftotext (-layout 제외) : 나쁘지 않고 글 머리 기호가 정렬되지만 머리글 / 바닥 글 노이즈가 발생합니다. FF가 있습니다. 하이픈이 제거되었습니다. "T \ n \ nhe"챕터 큰 글자를 시작하기에는 최악입니다.

pdftotext (withlayout) : 비슷하지만 더 들여 쓰기 장 시작을위한 "그".

pdftohtml >> pdfreflow >> htmltotext : 페이지 번호를 제거했지만 여전히 머리글 / 바닥 글에 정크 파일이 있습니다. 장 시작을위한 "그". 하이픈이 제거되었습니다. 단락마다 여러 줄을 사용하지만 다른 버전과 같은 줄 바꿈이 아닙니다!


리눅스의 Acrobat Reader 9는 필자의 경우 스쿼시 단어를 생성했습니다. ebook-convert잘 작동했습니다.
ov7a

우리는 그것을 위해 AI 앱이 정말로 필요합니다. 그것은 그런 종류의 작업에 완벽 해 보입니다.
JinSnow

1
Adobe Reader는 무료이지만 PDF 만 읽을 수 있습니다. 다른 것들은 당신이 지불해야합니다 (월간 구독). (텍스트로 PDF는 몇 페이지로 제한됩니다). Pdfto 텍스트 (또는 승리시 xpdf)는 내 요구에 완벽합니다.
JinSnow

테이블 형식 데이터의 경우 이제 -table 스위치 "pdftotext -table file_name.pdf output_name.txt"를 사용하는 것이 가장 좋습니다.
Thom Ives

5

Google 계정이있는 경우 Google 문서를 사용하여 PDF를 업로드하고 편집 가능한 텍스트로 변환 할 수 있습니다.


1

또한 pypdf를 시도하여 두 문서의 pdftotext와 비교했습니다. 더 많은 줄 바꿈이 있었고 일부 섹션 이름이 분리되었습니다 (참조는 REFERENCES였습니다).

pdf2txt가 완전한 쓰레기를 출력했습니다.

pdftotext가 출력을 망칠 경우 종종 pdfBox (java)를 사용합니다. 시도해 볼 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.