클러스터링을 비교하기 위해 정보 의 변화 와 랜드 인덱스 의 차이에 대한 통찰력이나 직관이있는 사람이 있는지 궁금 합니다.
Marina Melia (Journal of Multivariate Analysis, 2007)의 " 클러스터링 비교-정보 기반 거리 " 라는 논문을 읽었 지만 정의의 차이를 알아 차리는 것 외에는 정보의 변화가 무엇인지 이해하지 못합니다. 랜드 인덱스가 캡처하지 않음을 캡처합니다.
클러스터링을 비교하기 위해 정보 의 변화 와 랜드 인덱스 의 차이에 대한 통찰력이나 직관이있는 사람이 있는지 궁금 합니다.
Marina Melia (Journal of Multivariate Analysis, 2007)의 " 클러스터링 비교-정보 기반 거리 " 라는 논문을 읽었 지만 정의의 차이를 알아 차리는 것 외에는 정보의 변화가 무엇인지 이해하지 못합니다. 랜드 인덱스가 캡처하지 않음을 캡처합니다.
답변:
두 방법의 차이점은 미묘합니다. 이를 고려하는 가장 좋은 방법은 클러스터링에서 병합 분할 작업으로 정의 된 격자를 고려하는 것입니다. 클러스터링에서 함수 를 정의한 다음 공식으로 두 클러스터링 사이의 거리를 정의하여이 측정 값을 모두 재구성 할 수 있습니다 .
C ∧ C는 ' 이다는이 격자에 두 clusterings 조인.
이제 하고 n i = | C i | . 설정 F를 ( C ) = Σ N 2 나 랜드 인덱스를 산출하고, 설정 F를 ( C ) = Σ N 저는 로그온 N 내가 VI를 산출한다.
제 생각에는 큰 차이가 있습니다. Rand 인덱스는 그것이 작동하는 클러스터링의 세분성에 의해 크게 영향을받습니다. 다음에서는 Rand 지수의 조정 된 형태 인 Mirkin 거리를 사용합니다 (보기 쉽지만 Meila 참조). 나는 또한 Meila의 논문들에서 언급 된 split / join distance를 사용할 것이다 (면책 조항 : split / join distance는 나에게 제안되었다). 백 요소의 우주를 가정 해 봅시다. Top을 사용하여 모든 요소를 포함하는 단일 클러스터로 클러스터링을 표시하고 Bottom을 사용하여 모든 노드가 별도의 싱글 톤 세트에있는 클러스터링을 표시하고 왼쪽을 사용하여 {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} 및 클러스터링 {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
내 생각에, Bottom과 Top은 일관된 (중첩) 클러스터이고, 왼쪽과 오른쪽은 최대한 충돌하는 클러스터입니다. 이 두 쌍 비교에 대해 언급 된 측정 항목과의 거리는 다음과 같습니다.
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
Mirkin / Rand는 최대 충돌하는 Left-Right 쌍보다 일관된 Top-Bottom 쌍을 훨씬 더 멀리 고려합니다. 이것은 요점을 설명하기위한 극단적 인 예이지만 Mirkin / Rand는 일반적으로 작동하는 군집의 세분성에 크게 영향을받습니다. 이것이 기본이되는 이유는이 메트릭과 클러스터 크기 사이의 2 차 관계이기 때문입니다. 이는 노드 쌍 의 계산 이 관련되어 있다는 사실에 의해 설명됩니다 . 실제로 Mirkin 거리는 군집화에 의해 유도 된 완전한 그래프의 모서리 집합 간의 해밍 거리입니다 (이것이 귀하의 질문에 대한 답변입니다).
정보의 변화와 스플릿 / 조인의 차이점에 대해, 첫 번째는 Meila가 보여주는 특정 충돌 상황에 더 민감합니다. 즉, Split / Join은 각 클러스터에 대한 최상의 일치 만 고려하고 해당 클러스터의 나머지 부분에서 발생할 수있는 조각화를 무시하고 정보의 변형이이를 선택합니다. 즉, Split / Join은 한 클러스터에서 다른 클러스터를 얻기 위해 이동해야하는 노드의 수로 쉽게 해석 할 수 있으며 그 의미에서 범위를보다 쉽게 이해할 수 있습니다. 실제로 조각화 문제는 그다지 일반적이지 않을 수 있습니다.
이러한 각 메트릭은 두 거리의 합, 즉 두 클러스터링 각각으로부터 가장 큰 공통 서브 클러스터까지의 거리의 합으로 형성 될 수 있습니다. 나는 그 합이 아니라 별도의 부품으로 작업하는 것이 종종 유익하다고 생각합니다. 위의 표는 다음과 같습니다.
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
Top과 Bottom의 하위 가정 관계가 즉시 명확 해집니다. 두 클러스터링이 서로 가까운 지에 대한 문제를 완화시키는 것과 같이 일관성 이 있는지 (즉, 하나는 다른 클러스터의 서브 클러스터링인지) 아는 것이 종종 유용합니다 . 클러스터링은 금본위 제와는 거리가 멀지 만 여전히 일관되거나 거의 일관됩니다. 이 경우 해당 금 표준과 관련하여 클러스터링이 잘못되었다고 생각할 이유가 없습니다. 물론, 간단한 클러스터링 Top 및 Bottom은 모든 클러스터링 과 일치 하므로이를 고려해야합니다.
마지막으로 Mirkin, Variation of Information 및 Split / Join과 같은 메트릭은 클러스터링을 비교하는 자연스러운 도구라고 생각합니다. 통계적 독립성을 통합하고 우연히 수정하려는 대부분의 응용 방법은 명확하게 설명하기보다는 지나치게 고 안되고 난독 화됩니다.
두 번째 예 C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} 클러스터링 쌍을 고려하십시오. = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
및 C3 = {{1, 2, 3, 4} {5, 6, 7, 8, 9, 10} {11, 12, 13, 14, 15, 16}}와 {{1, 2, 3, , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
여기서, C2 는 노드 9 및 10을 이동함으로써 C1 로부터 형성 될 수 있고 C3 은 노드 11 및 12를 이동함으로써 C3 으로부터 형성 될 수있다 . 관련된 클러스터의 크기가 상이하다는 것을 제외하고는 두 변화는 동일하다 ( "두 노드 이동"). . 이 두 가지 예에 대한 클러스터링 메트릭 표는 다음과 같습니다.
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Mirkin / Rand 및 정보의 변화는 클러스터 크기에 영향을받습니다 (그리고 Mirkin은 더 커집니다; 클러스터 크기가 다양 해짐에 따라 더 두드러 질 것입니다). 항상 가장 큰 공통 서브 클러스터를 통해 한 클러스터에서 다른 클러스터로 노드를 "이동"합니다. 상황에 따라 바람직한 특성 일 수 있습니다. Split / Join (이동할 노드 수)에 대한 간단한 해석과 클러스터 크기의 독립성을 알고 있어야합니다. Mirkin과 다양한 정보 사이에서 나는 후자가 매우 바람직하다고 생각합니다.