Doc 또는 Pdf에서 스프레드 시트로 데이터를 추출하는 가장 빠른 방법 [닫기]


0

나는 나에게 오는 보고서의 유입을 가지고 있으며, 나는 데이터의 일부를 추출하여 더 나은 형식 (엑셀 워크 시트)으로 작성해야한다. 보고서는 docx 또는 pdf 형식으로 제공되며 다음과 같이 보입니다.

Miscellaneous data...................    
Unneeded data.......        
             North               South            West
Name         Lakeview Church     Lakeview Church  
Making       Brick               Wood  
Status       Gone                "small checkmark"
unneeded data.......    
Name         Baxter Building                      Baxter Building
Making       Brick                                Brick
Making       Gone                                 Great

PDF에는 강조 가능한 텍스트가 있지만 텍스트는 PDF 또는 워드 문서에서 테이블에 모두 들어 있지 않습니다. 어떤 사람들은 적절하게 배치 된 텍스트 상자에 있습니다.

나는 여기서 사방에 나가고 싶지만, 적절한 데이터를 추출하고 다음과 같이 정리 한 일종의 템플릿을 만들 수있는 무언가가 있기를 바라고 있습니다.

Name               Direction        Making          Status
Lakeview Church    North            Brick           Gone
Lakeview Church    South            Wood            Good

또한 보고서에 작은 이미지가 있습니다. 나는 이미지를 추출 할 필요가 없지만 이미지가 존재한다는 것을 보여주기 위해 뭔가 번역 될 수 있다면 그것은 훌륭 할 것이다. 그리고 제가 북쪽에있는 이름으로 "교회"로 모든 것을 무시하는 것처럼 그것을 말할 수 있다면, 그것은 완벽 할 것입니다.

나는 워드 프로세서에 대한 해결책이 필요 없다. Pdfs. 나는 가장 쉬운 방법을 사용할 수 있습니다.

이 작업을 수행하는 가장 빠르고 쉬운 방법이 무엇이든간에 올바른 방향으로 나를 가리 키십시오. 이 작업을 수행 할 수있는 편리한 프로그램이 있는지 또는 이것이 무언가인지 직접 프로그래밍해야하는지 여부. 그러나 나는 초보자이므로 초보자에게 적합한 출발점을 알려주십시오.


이것은 질문이 아닙니다. 소프트웨어 프로젝트입니다.
teylyn

@ 사과. 나는 이런 종류의 일을하기위한 방법과 출발점을 묻고 자했다. 지역에 대한 충분한 정보가 없어서 내가하는 일을 열거하고 "어떻게해야합니까?"라고 말하는 것 이외의 특정 질문을하기에 충분하지 않습니다. 내가 어떻게해야할지 / 어떻게해야하는지 / 어떻게 다시해야하는지에 대해 조언을 구합니까?
Jake Holds

답변:


2

예상되는 자동화 및 자동화 예산에 따라 다양한 접근 방식이 있습니다.

잘라 내기 / 붙여 넣기 및 사용자 지정 구문 분석

수동으로 문서를 열고 텍스트를 Excel 등의 다른 프로그램에 복사합니다. 그런 다음 프로그래밍 경험이있는 사람은 프로그램에서 Excel 매크로를 작성하여 텍스트에서 표를 추출하고 표가 제대로 배치 된 Excel 스프레드 시트를 생성합니다.

광학 문자 인식 (OCR)

문서 및 / 또는 이미지에서 구조화 된 데이터를 추출하고 Excel 스프레드 시트로 출력 할 수있는 구입할 수있는 OCR 응용 프로그램이 있습니다. 간단한 응용 프로그램 만 텍스트를 출력하지만 더 높은 사양의 응용 프로그램은 테이블 레이아웃을 결정할 수 있습니다. google에서 "OCR 응용 프로그램"을 검색하십시오.

문서 캡처

가장 자동화 된 솔루션은 문서 구조에 대한 응용 프로그램을 "가르쳐"원하는 데이터 만 추출 할 수있는 솔루션입니다. 예를 들면 Kofax Express와 같은 것입니다. 주로 스캔 응용 프로그램이지만 문서 처리에도 사용할 수 있습니다. 이것은 가장 비싸지 만 가장 강력한 솔루션입니다. Kofax 웹 사이트는 협박하는 비즈니스 소프트웨어로 인해 과부하 상태가되지만 Kofax Express는 보급형 제품이라고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.