일종의 "고유성"또는 "유사성"값을 계산해야하는 n 세트 그룹이 있습니다. 나는에 정착 한 인 Jaccard 지수 적절한 메트릭있다. 불행히도 Jaccard 인덱스는 한 번에 두 세트에서만 작동합니다. 모든 세트 간의 유사성을 계산하려면 Jaccard 계산 순서로 필요합니다 .
(만약 도움이된다면 은 보통 10에서 10000 사이이며 각 세트에는 평균 500 개의 요소가 포함됩니다. 또한 결국 두 특정 세트가 얼마나 비슷한 지 신경 쓰지 않습니다. 오히려 내부 유사성 만 신경 쓰십시오. (즉, 그룹 내의 모든 Jaccard 인덱스의 평균 (또는 적어도 충분히 정확한 평균의 근사)))
두 가지 질문 :
- 복잡성 없이 여전히 Jaccard 인덱스를 사용하는 방법이 있습니까?
- 위에서 제안한 방식보다 여러 세트의 세트에서 세트 유사성 / 고유성을 계산하는 더 좋은 방법이 있습니까?