유사성 점수를 기반으로 한 클러스터링


17

두 요소 ei, ej ∈ E 사이 에 요소 E 와 유사성 ( 거리가 아닌 ) 함수 sim (ei, ej) 가 있다고 가정합니다 .

sim을 사용하여 E 의 요소를 어떻게 효율적으로 클러스터링 할 수 있습니까?

k는 예를 들면, 소정의 요구 -means k는 캐노피 클러스터링 개의 임계치를 필요로한다. 사전 정의 된 매개 변수를 원하지 않으면 어떻게합니까?

참고, 그 시뮬레이션은 neccessarily 메트릭 아니다 (즉, 삼각 부등식하거나 보유하지 않을 수있다). 또한 클러스터가 분리되어 있는지 여부는 중요하지 않습니다 ( E의 파티션 ).


2
왜 거리 가 없다고 강조했는지 궁금합니다 . 나는 여기 전문가가 아니지만 필요한 경우 기본적으로 그 역을 고려하여 그러한 유사성을 거리로 변환 할 수 있는지 궁금합니다. 그럼에도 불구하고 매개 변수가 완전히없는 클러스터링 알고리즘이 의심 스럽기 때문에 모든 경우에 약간의 조정이 필요할 것입니다. k- 평균을 고려할 때 실제 가치 속성이 있다고 가정 할 수 있습니까 (특히 여러 요소의 "평균"을 취할 있음)?
Marco13

4
k 평균을 수행하기 위해 k를 알 필요는 없습니다. 다양한 k로 클러스터링하고 클러스터 분산을 확인하여 최적을 찾을 수 있습니다. 또는 가우시안 혼합 모델 또는 클러스터링에 도움이되는 것과 같은 다른 식당 프로세스를 고려할 수도 있습니다.
cwharland

2
: 나는 특정 이유에 대한 질문을 하면 당신은 K-수단을 적용 할 수 있지만, 유일한 문제는 당신이 고려할 수, 최초의 "K"를 발견했다 en.wikipedia.org/wiki/Self-organizing_map 대안으로합니다. 멋진 속성을 가지고 있으며 기본적으로 k- 평균과 "유사한"동작을하지만 초기 "k"를 설정할 필요는 없습니다. 추가 튜닝 매개 변수가 있으며 교육 비용이 많이들 수 있지만 아직 볼 가치가 없기 때문에 즉시 사용 가능한 솔루션이 아닐 수도 있습니다.
Marco13

2
k의 초기 선택은 군집 결과에 영향을 주지만, 군집에 사용하는 k의 각 값, 해당 군집에있는 모든 주제의 상대적 유사성을 알려주는 손실 함수 또는 정확도 함수를 정의 할 수 있습니다. 유사성에서 분산을 최소화하는 k를 선택합니다. GMM 및 기타 디 리틀 릿 프로세스는 모르는 k 문제를 잘 처리합니다. 내가 본 최고의 리소스 중 하나는 Edwin Chen의 튜토리얼 입니다.
cwharland

4
생각 : 유사성 점수가 1 로 정규화 된 경우보다 1-sim(ei, ej) = Distance. 거리 측정법을 사용하면 계층 적 군집화를 적용 할 수 있습니다. 루트에서 내려 가면 특정 문제에 어떤 수준의 세분성 클러스터가 적합한 지 알 수 있습니다.
Olexandr Isayev

답변:


8
  1. 나는 일반적으로 메트릭을 사용하는 많은 클러스터링 알고리즘이 실제로는 메트릭 속성에 의존하지 않는다고 생각합니다 (정류 성 제외). 예를 들어, DBSCAN은 포인트 주변에서 엡실론 이웃을 사용합니다. 거기에는 삼각형의 불평등이 중요하다고 말하는 것은 없습니다. 따라서 효율적인 검색을 위해 일종의 비표준 공간 인덱스를 수행해야 할 수도 있지만 DBSCAN을 사용할 수 있습니다. epsilon-neighborhood 버전은 다른 방법이 아닌 sim> 1 / epsilon 일 것입니다. k- 평균 및 관련 알고리즘에 대한 동일한 이야기.

  2. 유사성으로 메트릭을 구성 할 수 있습니까? 하나의 가능성 : 모든 k에 대한 dist (ei, ej) = min (sim (ei, ek) + sim (ek, ej)) ... 또는, sim (ei, ej) <sim과 같은 상한을 제공 할 수 있습니까 (ei, ek) + sim (ek, ej) + d, 모든 k와 양의 상수 d? 직관적으로 큰 sim 값은 서로 더 가깝다는 것을 의미합니다. 1 / sim은 메트릭과 비슷합니까? 1 / (sim + constant)는 어떻습니까? 모든 k에 대해 min (1 / sim (ei, ek) + 1 / sim (ek, ej))는 어떻습니까? (마지막은 미터법, btw 임)

  3. 메트릭의 다른 구성은 포함을 수행하는 것입니다. 첫 번째 단계로, 적절한 함수 f 및 미터법에 대해 xi가 sum (abs (sim (ei, ej)-f (dist (xi, xj)))을 최소화하도록 ei-> xi 점을 매핑 할 수 있습니다. dist. 함수 f는 임베딩에서 거리를 유사성 같은 값으로 변환합니다. 비트를 실험해야하지만 1 / dist 또는 exp ^ -dist가 좋은 시작점입니다. 여기에서 xi에서 기존 클러스터링을 사용할 수 있습니다. 여기서 아이디어는 임베딩 거리를 유사성 값으로 거의 (가장 적합하게) 변환하여 올바르게 클러스터링 할 수 있다는 것입니다.

  4. 사전 정의 된 매개 변수를 사용하면 모든 알고리즘에 약간의 조정이 있습니다. DBSCAN은 클러스터 수를 찾을 수 있지만 여전히 일부 매개 변수를 제공해야합니다. 일반적으로, 튜닝에는 클러스터링 알고리즘 자체에서 별도로 제공되거나 클러스터링에 의해 제공되거나 눈에 띄는 클러스터링 알고리즘 (클러스터링 알고리즘 자체에서 별도로 제공됨)을 평가하는 일부 기능과 함께 조정 가능한 매개 변수에 대해 다른 값을 가진 여러 알고리즘 실행이 필요합니다. 데이터가 변경되지 않으면 한 번 튜닝 한 다음 고정 된 매개 변수를 사용할 수 있습니다. 변경되면 각 실행마다 조정해야합니다. 각 런을 튜닝 한 다음 특정 런의 파라미터가 다른 런에서 얼마나 잘 작동하는지 비교하여이를 구체적으로 조정 한 파라미터와 비교할 수 있습니다.


7

Alex는 DBSCAN이 여기에서 사용하기에 가장 좋은 클러스터링 알고리즘이라는 그의 의미에 대해 약간의 의견을 제시해야 할 수도 있지만 많은 장점을 가지고 있습니다. 구현과 가속 인덱스 사용 여부에 따라 (많은 구현은 사용하지 않음) 시간과 공간의 복잡성은O(n2) 이상적이지 않습니다.

개인적으로 필자의 클러스터링 알고리즘은 승자 모두를위한 OpenOrd이며 퍼지 클러스터링을위한 FLAME입니다. 두 방법 모두 사용 된 메트릭이 유사성인지 거리인지에 무관심합니다 (특히 FLAME은 두 구성에서 거의 동일합니다). Gephi에서 OpenOrd의 구현은O(nlogn) Gephi 패키지에있는 다른 클러스터링 알고리즘보다 확장 성이 뛰어난 것으로 알려져 있습니다.

반면 FLAME은 퍼지 클러스터링 방법을 찾고 있다면 좋습니다. FLAME의 복잡성은 반복적 인 프로세스이기 때문에 결정하기가 조금 더 어렵지만, 이차 이하이고 실행 속도가 knn과 비슷한 것으로 나타났습니다.



4

DBSCAN (참조 : 일반화 된 DBSCAN)에는 거리가 필요하지 않습니다. 필요한 것은 이진 결정입니다 입니다. 일반적으로 "distance <epsilon"을 사용하지만 "similarity> epsilon"을 대신 사용할 수는 없습니다. 삼각형 부등식은 필요하지 않습니다.

이름에서 알 수 있듯이 선호도 전파는 유사성을 사용합니다.

Ward 연결을 제외하고 계층 적 클러스터링은 가정하지 않습니다. 많은 구현에서 유사성이있을 때 음의 거리를 사용할 수 있으며 제대로 작동합니다. 필요한 것은 min, max 및 <입니다.

커널 k- 평균은 유사성이 좋은 커널 기능인 경우 작동 할 수 있습니다. 유클리드 거리가 유사도 함수에 해당하는 다른 벡터 공간에서 k- 평균을 계산하는 것으로 생각하십시오. 그러나 k를 알아야합니다.

PAM (K-medoid)이 작동해야합니다. 각 객체를 가장 유사한 메도 이드에 할당 한 다음, 새로운 메도 이드와 같이 평균 유사성이 가장 높은 객체를 선택하십시오. 삼각형 부등식이 필요하지 않습니다.

... 그리고 아마도 더 많은 것들. 말 그대로 수백 개의 클러스터링 알고리즘이 있습니다. 대부분 IMHO를 사용해야합니다 . 실제로 메트릭 속성이 필요한 사람은 거의 없습니다. K-수단은 아마도 가장 강한 요구 사항이 있습니다 : 그것은 최소화 분산 (안 거리, 또는 유사성을), 당신은 수단을 계산 할 수 있어야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.