PDF 문서에서 텍스트를 추출 할 수있는 PDF 라이브러리를 찾고 있습니다. 필자는 PyPDF를 살펴 봤는데 이것은 PDF 문서에서 텍스트를 아주 멋지게 추출 할 수 있습니다. 이 문제는 문서에 표가있는 경우 표의 텍스트가 나머지 문서 텍스트와 함께 인라인으로 추출된다는 것입니다. 유용하지 않고 왜곡되어 보이는 텍스트 섹션이 생성되기 때문에 문제가 될 수 있습니다.
표 및 특수 서식을 제외하고 PDF 문서에서 텍스트를 추출하고 싶습니다 . 이 작업을 수행하는 도서관이 있습니까?