나는 나에게 오는 보고서의 유입을 가지고 있으며, 나는 데이터의 일부를 추출하여 더 나은 형식 (엑셀 워크 시트)으로 작성해야한다. 보고서는 docx 또는 pdf 형식으로 제공되며 다음과 같이 보입니다.
Miscellaneous data...................
Unneeded data.......
North South West
Name Lakeview Church Lakeview Church
Making Brick Wood
Status Gone "small checkmark"
unneeded data.......
Name Baxter Building Baxter Building
Making Brick Brick
Making Gone Great
PDF에는 강조 가능한 텍스트가 있지만 텍스트는 PDF 또는 워드 문서에서 테이블에 모두 들어 있지 않습니다. 어떤 사람들은 적절하게 배치 된 텍스트 상자에 있습니다.
나는 여기서 사방에 나가고 싶지만, 적절한 데이터를 추출하고 다음과 같이 정리 한 일종의 템플릿을 만들 수있는 무언가가 있기를 바라고 있습니다.
Name Direction Making Status
Lakeview Church North Brick Gone
Lakeview Church South Wood Good
또한 보고서에 작은 이미지가 있습니다. 나는 이미지를 추출 할 필요가 없지만 이미지가 존재한다는 것을 보여주기 위해 뭔가 번역 될 수 있다면 그것은 훌륭 할 것이다. 그리고 제가 북쪽에있는 이름으로 "교회"로 모든 것을 무시하는 것처럼 그것을 말할 수 있다면, 그것은 완벽 할 것입니다.
나는 워드 프로세서에 대한 해결책이 필요 없다. 과 Pdfs. 나는 가장 쉬운 방법을 사용할 수 있습니다.
이 작업을 수행하는 가장 빠르고 쉬운 방법이 무엇이든간에 올바른 방향으로 나를 가리 키십시오. 이 작업을 수행 할 수있는 편리한 프로그램이 있는지 또는 이것이 무언가인지 직접 프로그래밍해야하는지 여부. 그러나 나는 초보자이므로 초보자에게 적합한 출발점을 알려주십시오.