먼저, PDF가 무엇인지 이해해야합니다. PDF는 인쇄 된 페이지를 모방하도록 설계되었으며 입력 형식이 아닌 출력 형식으로 만 설계되었습니다 . PDF는 기본적으로 문자 (개별 문자 또는 문장 부호 등) 또는 이미지의 정확한 위치를 포함하는 맵입니다. 대부분의 경우 PDF는 한 단어가 끝나고 다른 단어 가 시작 되는 위치에 대한 정보조차 저장하지 않습니다 .
(최근의 일부 PDF에는이 내용에 대한 일부 정보가 저장되어 있지만 이는 새로운 기술이므로 PDF를 찾는 것이 운이 좋을 것입니다. 그래도 PDF 뷰어에 대해서는 알지 못할 수 있습니다.)
어쨌든, 개별 문자의 위치에서 단어, 단락 등을 추출하기 위해 일종의 "인공 지능"을 구현하는 것은 소프트웨어에 달려 있습니다. 다른 소프트웨어가 다른 소프트웨어보다이 작업을 더 잘 수행 할 수 있으며 PDF 작성 방법에 따라 달라집니다. 어떤 경우에는, 당신이해야 결코 완벽한 결과를 기대하지 않습니다. 출력 PDF를 갖는 것은 소스 문서를 갖는 것과 다릅니다. 가능하다면 그것을 얻으려고 노력하는 것이 훨씬 좋습니다.
귀하의 문제에 대한 표준 솔루션은 Adobe Acrobat Professional (무료 리더가 아닌 값 비싼 것)을 사용하여 PDF를 HTML로 변환하는 것입니다. 그럼에도 불구하고 완벽한 결과를 얻지 못할 것입니다.
일부 서식은 그대로 유지하면서 PDF에서 텍스트를 추출하는 데 사용할 수있는 무료 소프트웨어가 있지만 완벽한 결과를 기대하지는 않습니다. 예를 들어 구경 (RTF 형식으로 변환 할 수 있음), pdftohtml / pdfreflow 또는 AbiWord 워드 프로세서 (모든 가져 오기 / 내보내기 플러그인 사용)를 참조하십시오. OpenOffice 용 PDF 가져 오기 플러그인도 있습니다.
그러나 이러한 결과로 완벽을 기대하지 마십시오. 당신은 여기 곡물에 반대합니다. PDF는 편집 가능한 입력 형식을 의미하지 않습니다.