클러스터링하려는 5 개 세트가 있다고 가정합니다. SimHashing 기술이 여기에 설명되어 있음을 이해합니다.
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
예를 들어 결과가 다음과 같은 경우 세 개의 클러스터 ( {A}
, {B,C,D}
및 {E}
)를 생성 할 수 있습니다 .
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
마찬가지로 MMDS 책의 3 장에서 설명한 MinHashing 기술은 다음과 같습니다.
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
결과가 다음과 같은 경우 동일한 세 개의 클러스터를 생성 할 수도 있습니다.
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(각 세트는 3 개의 "밴드"로 구성된 MH 서명에 해당하며, 서명 밴드 중 하나 이상이 일치하면 두 세트가 그룹화됩니다. 밴드가 많을수록 일치 가능성이 높아집니다.)
그러나 나는 이것과 관련된 몇 가지 질문이 있습니다.
(1) SH 는 MH 의 단일 대역 버전 으로 이해 될 수 있습니까?
(2) MH는 반드시 Union-Find와 같은 데이터 구조를 사용하여 클러스터를 구축해야합니까?
(3) 두 기술 모두에서 클러스터가 단지 "후보 쌍"이라는 의미에서 실제로 "사전 클러스터 (pre-clusters)"라고 생각 하는가?
(4) (3)이 참인 경우, 각 "사전 클러스터"내 에서 검색 을 수행하여 "실제"클러스터로 더 분할해야 한다는 것을 의미 합니까? (작고 균형 잡힌 사전 클러스터가 많으면 합리적 일 수 있습니다)