Lucene에 대한 문서를 읽었습니다. 또한이 링크 ( http://lucene.sourceforge.net/talks/pisa ) 의 문서를 읽었습니다 .
Lucene이 문서를 색인화하는 방법을 정말로 이해하지 못하고 Lucene이 색인화에 사용하는 알고리즘을 이해하지 못합니까?
위의 링크에서 Lucene은 색인 생성에이 알고리즘을 사용한다고 말합니다.
- 증분 알고리즘 :
- 세그먼트 인덱스 스택 유지
- 들어오는 각 문서에 대한 색인 생성
- 스택에 새 인덱스 푸시
- b = 10을 병합 인자로 둡니다. M = 8
for (size = 1; size < M; size *= b) {
if (there are b indexes with size docs on top of the stack) {
pop them off the stack;
merge them into a single index;
push the merged index onto the stack;
} else {
break;
}
}
이 알고리즘은 최적화 된 인덱싱을 어떻게 제공합니까?
Lucene은 인덱싱을 위해 B- 트리 알고리즘 또는 이와 유사한 다른 알고리즘을 사용합니까? 아니면 특정 알고리즘이 있습니까?