나는 그것을 알고 오늘부터 다음 PDF 파일에서 텍스트 추출을위한 가장 좋은 방법이 있다 TET, 텍스트 추출 툴킷 . TET은 PDFlib.com 제품군의 일부입니다.
PDFlib.com은 Thomas Merz의 회사입니다. 그의 이름을 모르는 경우 : Thomas Merz는 "PostScript and PDF Bible"의 저자입니다.
TET의 첫 번째 화신은 도서관 입니다. 그것은 페이지의 모든 요소에 대한 위치 정보를 포함하여 Budda006이 원했던 모든 것을 할 수 있습니다. 아, 그리고 이미지를 추출 할 수도 있습니다. 조각으로 조각난 이미지를 재결합합니다.
pdflib.com은이 기술의 또 다른 화신 인 Acrobat 용 TET 플러그인을 제공 합니다. 그리고 세 번째 화신은 PDFlib TET iFilter 입니다. 사용자 데스크탑을위한 독립형 도구입니다. 이 두 가지 모두 비 상업용 목적으로 무료로 사용할 수 있습니다 (맥주 에서처럼).
그리고 정말 강력합니다. Adobe 자체 텍스트 추출보다 훨씬 좋습니다. 다른 도구 (Adobe 포함)가 쓰레기를 뱉어내는 텍스트를 추출했습니다.
방금 데스크톱 독립형 도구를 테스트했으며 웹 페이지에서 말하는 내용이 사실입니다. 매우 좋은 명령 줄이 있습니다. 이 도구가 처리 한 "문제가있는"PDF 테스트 파일 중 일부가 만족스럽게 처리되었습니다.
이제부터는 모든 정교하고 까다로운 PDF 텍스트 추출 요구 사항에 대한 권장 사항이 될 것입니다.
TET은 정말 대단합니다. 테이블을 감지합니다. 테이블 내부에서 여러 열에 걸쳐있는 셀을 식별합니다. 각 테이블 셀의 테이블 행과 내용을 개별적으로 식별합니다. 하이픈을 매우 잘 처리합니다. 하이픈을 제거하고 완전한 단어를 복원합니다. 비 ASCII 언어 (CJK, 아랍어 및 히브리어 포함)를 지원합니다. 합자를 만나면 원래 문자가 복원됩니다.
시도 해봐.