유사도 설정-2 차 복잡성없이 Jaccard 지수 계산


14

일종의 "고유성"또는 "유사성"값을 계산해야하는 n 세트 그룹이 있습니다. 나는에 정착 한 인 Jaccard 지수 적절한 메트릭있다. 불행히도 Jaccard 인덱스는 한 번에 두 세트에서만 작동합니다. 모든 세트 간의 유사성을 계산하려면 Jaccard 계산 순서로 필요합니다 .nn2

(만약 도움이된다면 은 보통 10에서 10000 사이이며 각 세트에는 평균 500 개의 요소가 포함됩니다. 또한 결국 두 특정 세트가 얼마나 비슷한 지 신경 쓰지 않습니다. 오히려 내부 유사성 만 신경 쓰십시오. (즉, 그룹 내의 모든 Jaccard 인덱스의 평균 (또는 적어도 충분히 정확한 평균의 근사)))n

두 가지 질문 :

  1. 복잡성 없이 여전히 Jaccard 인덱스를 사용하는 방법이 있습니까?n2
  2. 위에서 제안한 방식보다 여러 세트의 세트에서 세트 유사성 / 고유성을 계산하는 더 좋은 방법이 있습니까?

먼저 "내부 유사성"의 의미를 명확하게 설명해 주시겠습니까?
Suresh

즉, 그룹의 모든 Jaccard 인덱스의 평균 (또는 최소한 충분히 정확한 평균 근사)입니다.

5
답변을 근사하려는 경우 최소 단위 해싱을 사용하여 Jaccard 거리를 대략 추정 한 다음 결과 표현을 사용하여 원하는 평균을 계산할 수 있습니다.
Suresh

6
나는 당신이“충분히 정확한”이라는 의미를 알지 못하지만 많은 것들의 평균을 추정하는 한 가지 방법은 무작위로 그중 몇 가지 (이 경우 여러 쌍의 Jaccard 인덱스)를 계산하고 평균을 계산하는 것입니다. 그런 다음 Chernoff 경계를 사용하여이 추정치가 실제 평균과 거리가 멀다는 확률의 상한을 얻을 수 있습니다.
이토 쓰요시

답변:


4

옵션은 크기 기반 필터링 [1]의 서명 체계를 사용하는 것입니다 . 크기 정보를 사용하여 고려해야 할 세트 쌍의 수를 줄이는 체계입니다.

또한 가중치 형식을 실험합니다. 여기서 가중치는 IDF 기반입니다.

[1] Arasu, Arvind, Venkatesh Ganti 및 Raghav Kaushik. "효율적인 정확한 세트 유사성 조인." 초대형 데이터베이스에 관한 제 32 차 국제 컨퍼런스 (918-929)에서 발췌. VLDB '06. VLDB 엔 다우먼트, 2006


그 링크는 죽은 것 같습니다. vldb.org/conf/2006/p918-arasu.pdf로 업데이트하십시오 .
j_random_hacker

0

또 다른 옵션은 로컬 감도 해싱 위키 링크 를 사용하는 것 입니다. 우와 Zou ( 지역 민감성 해싱을 사용하는 소셜 태깅 시스템을위한 증분 커뮤니티 감지 방법Neural Networks 58 : 14-28; ACM DL )에 의해 커뮤니티 유사성 감지에 사용되는 것을 보았습니다 . 문자열 세트.


1
링크의 내용을 요약하고 논문을 인용하십시오. 링크가 오래되면 현재 답변이 쓸모 없게됩니다.
vonbrand
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.