전체 텍스트 인덱싱 엔진과 같은 것이 명령 줄에서 쿼리 할 수 있으며 GUI를 전혀 사용하지 않아도됩니다.
특히 전자 책과 논문의 색인을 생성하는 데 관심이 있으므로 pdf, epub 및 몇 가지 djvu가 혼합되어 있습니다. Office 문서는 훌륭하지만 내 목록에서 훨씬 낮습니다.
전체 텍스트 인덱싱 엔진과 같은 것이 명령 줄에서 쿼리 할 수 있으며 GUI를 전혀 사용하지 않아도됩니다.
특히 전자 책과 논문의 색인을 생성하는 데 관심이 있으므로 pdf, epub 및 몇 가지 djvu가 혼합되어 있습니다. Office 문서는 훌륭하지만 내 목록에서 훨씬 낮습니다.
답변:
Lucene 또는 Sphinx를 보셨습니까? 색인을 생성 할 문서를 처음에 파싱해야하지만 일단 완료되면 cli에서 검색 할 수 있습니다.
Lucene의 경우이 작업을 수행하는 방법에 대한 정보가 있습니다 .
스핑크스는 조금 더 모호하지만 일부 문서도 있습니다 . xmlpipe2 데이터 소스를 통해 선택한 구조화 된 XML 데이터를 스핑크스에 전달할 수 있습니다.
Lucene은 Java에 의존하는 반면 Sphinx는 외부 종속성없이 C ++로 빌드됩니다.
어느 쪽이든 원하는 것을하기 위해 약간의 작업이 필요하지만 완전히 실행 가능한 솔루션처럼 보입니다.
트래커는 명령 행에서 호출 할 수 있으며 gtk +는 프로젝트에 대한 어려운 의존성이 아닙니다 (패키지에 대한 것일 수도 있습니다).
이 답변 은 Google의 codesearch를 사용하는 것이 좋습니다 .
코드 검색은 대량의 소스 코드에서 색인을 생성 한 다음 정규식 검색을 수행하는 도구입니다.
데비안 / 파생 프로그램의 수퍼 유저는 다음을 시도 할 수 있습니다. sudo apt-get install codesearch
현재 트래커 스트림에는 안정 (0.8)과 불안정 (0.9)의 두 가지 스트림이 있습니다. 귀하의 OS 가능성이 당신이 (그것이 일부가 그것을 감당할 수 있다면, 그래서 0.8 버전이 출혈 에지 소프트웨어 종속성을), 최신 tar 파일 (0.9.x)을 잡아 이동합니다. 이는 보유 개선 많이 0.8 이상, 그리고 현재 안정화되고 (짝수 안정성을 나타낸다) 0.10되기 위해 상기. 이 경로를 선택하면 다음 명령을 사용하여 구성하십시오.
./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-explorer --disable-tracker-status-icon
의존성을 설치하지 않을 가능성이 높으므로 배포판에서 0.8을 설치하고 GUI 비트를 피하는 것이 더 현명해야합니다. 데비안 스퀴즈, 우분투 10.10 및 우분투 11.04에서는 이것들이 잘 나뉘어져 있습니다. 따라서 ( 루트로 ) 다음을 실행하십시오.
apt-get install --no-install-recommends tracker-utils tracker-miner-fs
이에 대한 CLI 도구는 tracker-search
이므로이를 --help
활용하는 방법을 보려면 옵션으로 실행 하십시오.
참고 사항 :
tracker-applet
하고 tracker-preferences
. 그러나 tracker-search-tool
GUI 검색 인터페이스를 위한 별도의 패키지가 있습니다.나는 올 여름 Sqlite3를 사용하여 NetBSD에 대한 매뉴얼 페이지를 색인화하고 검색하기위한 전체 텍스트 검색 도구 (새로운 apropos)를 작성하는 작업을했다. 다음 두 가지 명령 줄 도구로 구성됩니다.
비슷한 도구를 쉽게 작성할 수 있습니다. pdf의 경우 pdf 문서를 구문 분석하는 라이브러리와 오픈 오피스 문서를 구문 분석하는 유틸리티가 필요합니다.
프로젝트에 대한 자세한 내용은 여기를 참조하십시오
코드는 여기