Linux에서 MS Office 문서에서 텍스트를 추출하는 방법은 무엇입니까?

18

Linux의 모든 MS Office 문서 유형 (Word, Excel, Powerpoint)에서 텍스트를 추출 할 수있는 방법이 필요합니다. Bash 또는 Python 스크립트 또는 PDF로 변환 한 다음 pdftotext와 같은 도구를 사용하여 텍스트를 추출하는 등 여러 가지 접근 방식이있을 수 있습니다.

이것은 평범한 요구 사항 인 것처럼 보입니다. 이를 쉽게 수행 할 수있는 확립 된 절차 나 도구가 있습니까?

linux pdf extract

— 포이 아카 카르 윈
소스

16

Catdoc 은 doc, xls 및 ppt를 텍스트로 변환 할 수 있습니다. 두 번째 옵션은 wvWare 입니다.

더 많은 utils는 http://www.linux.com/archive/articles/52385 에서 word to text coverters 및

— 나 하르
소스

캣독! 그게 내가 찾는 것입니다! ODF에서도 작동합니까?

— Phyo Arkar Lwin

googled & stosberg.net/odt2txt 가져 왔습니다 . 그것을 시도하지 마십시오, 그것은 일을하는 것처럼 보입니다.

— nahar

멋진 감사합니다. catdoc는 괜찮지 만 xls, ppt를 테스트로 변환 할 수 없습니다. 나는 xls2csv와 apache-tika를 사용합니다. 한번 봐봐!

— Phyo Arkar Lwin

@nahar, odt2txt는 ms doc이 아닌 odt 형식에서만 작동합니다.

— Allen

1

catdoc은 나에게 세그먼테이션 결함을 준다

— fotanus

8

나는 마침내 문서 파싱 스크립팅을위한 완벽한 도구를 찾았습니다.

여기에서 Apache Tika를 얻으십시오.

http://tika.apache.org/

(맥 브루 사용자 : brew install tika)

명령 행 인터페이스는 다음과 같이 작동합니다.

tika --text something.docx > something.txt

— 포이 아카 카르 윈
소스

+1 : Apache Tika는 심각한 오픈 소스 프로젝트이며 Windows에서도 작동하며 명령 줄에서 작동하며 드래그 앤 드롭 기능이있는 GUI가 있으며 무엇이든 (Word, Excel, PowerPoint, PDF, svg) 열고 메타 데이터를 추출합니다. 문서도 마찬가지입니다. 위의 대부분의 도구를 시도한 후에 Apache Tika가 내가 찾고있는 것입니다. 이것은 허용 대답 (당신이 당신의 자신의 대답을 받아 들일 수 있는지 모르겠다)이어야한다

— user2518618

2

, shamelessly ... : D

— Phyo Arkar Lwin

7

Abiword 는 명령 줄에서 알려진 파일 형식간에 변환 할 수 있습니다.

Word에서 일반 텍스트로 변환 :

abiword --to=txt myfile.doc

Word 파일에서 PDF를 작성하십시오.

abiword --to=pdf myfile.doc

등등. 이 경우 결과는 myfile.txt 또는 myfile.pdf입니다. 출력 이름을 지정하려면 다음을 수행하십시오.

abiword --to=txt --to-name=output.txt myfile.doc

ODT를 Word로 변환 :

abiword --to=doc myfile.odt

Word를 ODT로 변환 :

abiword --to=odt myfile.doc

다른 답변과 마찬가지로 AbiWord는 wvWare를 사용하여 Word 문서를 처리하지만 wvWare 홈페이지 에서도 대부분의 변환에 AbiWord를 사용하는 것이 좋습니다.

나는 워드 프로세서가 싫어. 이것이 내가 AbiWord를 설치 한 주된 이유입니다.

unoconv에 관심이있을 수도 있는데 , OpenOffice가 알고있는 형식 (스프레드 시트 등 포함)을 지원하는 유사한 도구이지만 개인적으로는 경험이 없습니다.

— 멋진
소스

.docx 문서의 경우 엉망 : S 그러나 .doc에 대한 훌륭한 솔루션

— Warface

3

LibreOffice를 사용하면 다음을 수행 할 수 있습니다.

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt

— 도리스 사람
소스

4

텍스트 필터를 사용하여 txt로 변환 할 수 있습니다. libreoffice --invisible --convert-to txt : 텍스트 파일

— Gagaro

0

CUPS (가상 프린터)와 ld를 사용할 수 있습니다 .

— 우 칸트
소스

재미 있고 인쇄 가능한 것을 PDF로 변환 할 수 있습니까? Doc 또는 Xls에 대해 저와 예제를 지적 할 수 있습니까?

— Phyo Arkar Lwin

0

wv 는 하나의 옵션이며 IIRC OpenOffice는 명령 행에서 pdf로 내보내고 종료하도록 지시 할 수 있습니다.

— ptman
소스

unoconv 는 내가 기억할 수없는 OpenOffice 관련 도구 인 것 같습니다.

— ptman

0

Python 프로젝트에서 Apache Tika를 사용하려면 이 블로그 게시물을 확인하십시오 .

— qris
소스

0

1.doc catdoc 또는 doc 파일을 변환하는 안티 워드는 다음 명령을 사용할 수 있습니다 catdoc file.doc> 파일 또는 antiword file.doc> 파일

docx docx2txt
pdf emacs file.pdf ctrl-x ctrl-s 파일

— 리눅스
소스

(1) Catdoc은 거의 3 년 전에 질문 후 1 시간 이내에 게시 된 답변으로 제안되었습니다. 왜 반복합니까? (2) 안티 워드는 어디서 구할 수 있습니까? (3) 답의 하단은 무엇을 의미합니까?

— Scott

-1

Docsplit은 PDF에서 텍스트를 추출하는 완벽한 도구입니다. 루비 보석입니다. 따라서 docsplit 명령을 사용하기 전에 Linux 시스템에 ruby와 gem을 설치해야합니다.

시스템에 루비와 보석이 없으면 지침을 따르십시오.

소프트웨어를 설치하려면 루트 사용자 여야합니다 (모든 사용자가 소프트웨어를 사용할 수 있다고 가정).

리눅스에 루비를
설치하십시오 : yum install ruby gem을 설치 하시고, 최신 gem 패키지를 다운로드 하시고 지시를 따르십시오

타르 xzf rubygems-xxxx.tgz
CD rubygems-xxxx
ruby setup.rb

이제 RubyGems가 설치되었으므로 gem 명령이 있어야합니다 (gem는 RubyGems 패키지 시스템과 상호 작용하는 데 사용되는 명령입니다). 다음을 실행하여 테스트하십시오.

보석 목록

이제 다음 단계로 이동하여 docsplit gem을 설치하십시오. 다음 사이트로 이동하십시오. http://documentcloud.github.com/docsplit/

— 미스터 블랙
소스

이것은 OP가 요청한 것과 정반대입니다.

— CarlF