답변:
PDF의 텍스트는 절대적으로 배치 된 텍스트 조각으로 구성되며 일반적인 경우 줄과 단락 나누기가 구체적으로 표시되지 않습니다. 따라서 올바르게 결정하는 작업은 복잡한 작업 인 OCR보다 더 많아지며 만족스러운 결과를 얻으려면 복잡한 소프트웨어가 필요할 것입니다.
예를 들어 MS Word 자체에는 PDF 문서를 가져 오는 기능이 있지만 나누기를 완벽하게 인식하지는 못합니다 (예 : 텍스트 조각이 약간 '기울어 진'경우 (예 : 스캔 및 OCR) 서류).