Linux의 모든 MS Office 문서 유형 (Word, Excel, Powerpoint)에서 텍스트를 추출 할 수있는 방법이 필요합니다. Bash 또는 Python 스크립트 또는 PDF로 변환 한 다음 pdftotext와 같은 도구를 사용하여 텍스트를 추출하는 등 여러 가지 접근 방식이있을 수 있습니다.
이것은 평범한 요구 사항 인 것처럼 보입니다. 이를 쉽게 수행 할 수있는 확립 된 절차 나 도구가 있습니까?
Linux의 모든 MS Office 문서 유형 (Word, Excel, Powerpoint)에서 텍스트를 추출 할 수있는 방법이 필요합니다. Bash 또는 Python 스크립트 또는 PDF로 변환 한 다음 pdftotext와 같은 도구를 사용하여 텍스트를 추출하는 등 여러 가지 접근 방식이있을 수 있습니다.
이것은 평범한 요구 사항 인 것처럼 보입니다. 이를 쉽게 수행 할 수있는 확립 된 절차 나 도구가 있습니까?
답변:
Catdoc 은 doc, xls 및 ppt를 텍스트로 변환 할 수 있습니다. 두 번째 옵션은 wvWare 입니다.
더 많은 utils는 http://www.linux.com/archive/articles/52385 에서 word to text coverters 및
나는 마침내 문서 파싱 스크립팅을위한 완벽한 도구를 찾았습니다.
여기에서 Apache Tika를 얻으십시오.
(맥 브루 사용자 : brew install tika
)
명령 행 인터페이스는 다음과 같이 작동합니다.
tika --text something.docx > something.txt
Abiword 는 명령 줄에서 알려진 파일 형식간에 변환 할 수 있습니다.
Word에서 일반 텍스트로 변환 :
abiword --to=txt myfile.doc
Word 파일에서 PDF를 작성하십시오.
abiword --to=pdf myfile.doc
등등. 이 경우 결과는 myfile.txt 또는 myfile.pdf입니다. 출력 이름을 지정하려면 다음을 수행하십시오.
abiword --to=txt --to-name=output.txt myfile.doc
ODT를 Word로 변환 :
abiword --to=doc myfile.odt
Word를 ODT로 변환 :
abiword --to=odt myfile.doc
다른 답변과 마찬가지로 AbiWord는 wvWare를 사용하여 Word 문서를 처리하지만 wvWare 홈페이지 에서도 대부분의 변환에 AbiWord를 사용하는 것이 좋습니다.
나는 워드 프로세서가 싫어. 이것이 내가 AbiWord를 설치 한 주된 이유입니다.
unoconv에 관심이있을 수도 있는데 , OpenOffice가 알고있는 형식 (스프레드 시트 등 포함)을 지원하는 유사한 도구이지만 개인적으로는 경험이 없습니다.
CUPS (가상 프린터)와 ld를 사용할 수 있습니다 .
Python 프로젝트에서 Apache Tika를 사용하려면 이 블로그 게시물을 확인하십시오 .
Docsplit은 PDF에서 텍스트를 추출하는 완벽한 도구입니다. 루비 보석입니다. 따라서 docsplit 명령을 사용하기 전에 Linux 시스템에 ruby와 gem을 설치해야합니다.
시스템에 루비와 보석이 없으면 지침을 따르십시오.
소프트웨어를 설치하려면 루트 사용자 여야합니다 (모든 사용자가 소프트웨어를 사용할 수 있다고 가정).
리눅스에 루비를
설치하십시오 : yum install ruby gem을 설치 하시고, 최신 gem 패키지를 다운로드 하시고 지시를 따르십시오
타르 xzf rubygems-xxxx.tgz
CD rubygems-xxxx
ruby setup.rb
이제 RubyGems가 설치되었으므로 gem 명령이 있어야합니다 (gem는 RubyGems 패키지 시스템과 상호 작용하는 데 사용되는 명령입니다). 다음을 실행하여 테스트하십시오.
보석 목록
이제 다음 단계로 이동하여 docsplit gem을 설치하십시오. 다음 사이트로 이동하십시오. http://documentcloud.github.com/docsplit/