오픈 소스 (및 자동화)의 팬으로서 나는 이것을 말하기를 싫어하지만, 방금 (복잡하고 복잡한 PDF에서) 얻은 최고의 결과는 Adobe Reader에서 파일을 연 다음 File | Save As Text를 선택하는 것이 었습니다.
(나는 독자가 아닌 텍스트 분석 실험을 전처리하고 있지만 첫 번째와 두 번째 선택은 동일 할 것이라고 생각합니다.)
출력을 나란히 비교했습니다. 두 번째 선택은 전자 책 변환입니다.
Adobe : 페이지 나누기를 위해 FF로 왼쪽, 페이지 번호로 왼쪽은 제목 / 단락을 한 줄로 변환하지 않았지만 하이픈이 고정되어 있습니다. PDF에 숨겨진 정크가 출력되지 않았습니다. 섹션 시작시 "T he"가 아니라 "T he"가 아닌 "The"와 같은 큰 수도를 올바르게 확보했습니다.
ebook-convert : 페이지 번호가 남고 머리글 / 바닥 글에 숨겨진 정크가 있지만 FF는 없습니다. 대부분의 단락을 한 줄로 변환합니다. 그것이 놓친 것은 두 번 간격입니다! 글 머리 기호가 항상 텍스트와 일치하는 것은 아닙니다. 이 장의 시작 부분에 "The"가 올바르게 있습니다.
pdftotext (-layout 제외) : 나쁘지 않고 글 머리 기호가 정렬되지만 머리글 / 바닥 글 노이즈가 발생합니다. FF가 있습니다. 하이픈이 제거되었습니다. "T \ n \ nhe"챕터 큰 글자를 시작하기에는 최악입니다.
pdftotext (withlayout) : 비슷하지만 더 들여 쓰기 장 시작을위한 "그".
pdftohtml >> pdfreflow >> htmltotext : 페이지 번호를 제거했지만 여전히 머리글 / 바닥 글에 정크 파일이 있습니다. 장 시작을위한 "그". 하이픈이 제거되었습니다. 단락마다 여러 줄을 사용하지만 다른 버전과 같은 줄 바꿈이 아닙니다!