클러스터링 비교 : 랜드 인덱스와 정보의 변형


21

클러스터링을 비교하기 위해 정보변화랜드 인덱스 의 차이에 대한 통찰력이나 직관이있는 사람이 있는지 궁금 합니다.

Marina Melia (Journal of Multivariate Analysis, 2007)의 " 클러스터링 비교-정보 기반 거리 " 라는 논문을 읽었 지만 정의의 차이를 알아 차리는 것 외에는 정보의 변화가 무엇인지 이해하지 못합니다. 랜드 인덱스가 캡처하지 않음을 캡처합니다.

답변:


8

두 방법의 차이점은 미묘합니다. 이를 고려하는 가장 좋은 방법은 클러스터링에서 병합 분할 작업으로 정의 된 격자를 고려하는 것입니다. 클러스터링에서 함수 를 정의한 다음 공식으로 두 클러스터링 사이의 거리를 정의하여이 측정 값을 모두 재구성 할 수 있습니다 .에프

C C는 ' 이다는이 격자에 두 clusterings 조인.

(기음,기음')=에프(기음)+에프(기음')2에프(기음기음')
기음기음'

이제 하고 n i = | C i | . 설정 F를 ( C ) = Σ N 2 랜드 인덱스를 산출하고, 설정 F를 ( C ) = Σ N 저는 로그온 N 내가 VI를 산출한다.기음={기음1,기음2,,기음케이}나는=|기음나는|에프(기음)=나는2에프(기음)=나는로그나는


감사합니다 Suresh! 이러한 공식의 차이가 왜 랜드 인덱스와 정보의 변화가 클러스터링 간의 일관성에 차이를 주는지 (클러스터링 중 하나가 다른 클러스터의 서브 클러스터링) 정도를 설명하는 이유를 알고 있습니까? (micans의 답변에 따라)
Amelio Vazquez-Reina

2
micans가 지적했듯이 Rand Index는 2 차 행동을 가지므로 선형에 가까운 엔트로피 함수보다 억제 변화에 더 민감합니다.
Suresh Venkatasubramanian

미안하지만, 봉쇄가 클러스터링 간의 다른 유형의 불일치보다 이차 용어에 어떻게 영향을 미치는지 여전히 알 수 없습니다. 이것에 대해 좀 더 자세히 설명해 주시겠습니까?
Amelio Vazquez-Reina

@ user023472 안녕하세요 user023472. 나는 당신의 연구 결과에 관심이 있습니다. 두 방법의 차이점이 실제로 무엇인지 배웠습니까? 감사.
Creatron

14

제 생각에는 큰 차이가 있습니다. Rand 인덱스는 그것이 작동하는 클러스터링의 세분성에 의해 크게 영향을받습니다. 다음에서는 Rand 지수의 조정 된 형태 인 Mirkin 거리를 사용합니다 (보기 쉽지만 Meila 참조). 나는 또한 Meila의 논문들에서 언급 된 split / join distance를 사용할 것이다 (면책 조항 : split / join distance는 나에게 제안되었다). 백 요소의 우주를 가정 해 봅시다. Top을 사용하여 모든 요소를 ​​포함하는 단일 클러스터로 클러스터링을 표시하고 Bottom을 사용하여 모든 노드가 별도의 싱글 톤 세트에있는 클러스터링을 표시하고 왼쪽을 사용하여 {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} 및 클러스터링 {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

내 생각에, Bottom과 Top은 일관된 (중첩) 클러스터이고, 왼쪽과 오른쪽은 최대한 충돌하는 클러스터입니다. 이 두 쌍 비교에 대해 언급 된 측정 항목과의 거리는 다음과 같습니다.

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Mirkin / Rand는 최대 충돌하는 Left-Right 쌍보다 일관된 Top-Bottom 쌍을 훨씬 더 멀리 고려합니다. 이것은 요점을 설명하기위한 극단적 인 예이지만 Mirkin / Rand는 일반적으로 작동하는 군집의 세분성에 크게 영향을받습니다. 이것이 기본이되는 이유는이 메트릭과 클러스터 크기 사이의 2 차 관계이기 때문입니다. 이는 노드 의 계산 이 관련되어 있다는 사실에 의해 설명됩니다 . 실제로 Mirkin 거리는 군집화에 의해 유도 된 완전한 그래프의 모서리 집합 간의 해밍 거리입니다 (이것이 귀하의 질문에 대한 답변입니다).

정보의 변화와 스플릿 / 조인의 차이점에 대해, 첫 번째는 Meila가 보여주는 특정 충돌 상황에 더 민감합니다. 즉, Split / Join은 각 클러스터에 대한 최상의 일치 만 고려하고 해당 클러스터의 나머지 부분에서 발생할 수있는 조각화를 무시하고 정보의 변형이이를 선택합니다. 즉, Split / Join은 한 클러스터에서 다른 클러스터를 얻기 위해 이동해야하는 노드의 수로 쉽게 해석 할 수 있으며 그 의미에서 범위를보다 쉽게 ​​이해할 수 있습니다. 실제로 조각화 문제는 그다지 일반적이지 않을 수 있습니다.

이러한 각 메트릭은 두 거리의 합, 즉 두 클러스터링 각각으로부터 가장 큰 공통 서브 클러스터까지의 거리의 합으로 형성 될 수 있습니다. 나는 그 합이 아니라 별도의 부품으로 작업하는 것이 종종 유익하다고 생각합니다. 위의 표는 다음과 같습니다.

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Top과 Bottom의 하위 가정 관계가 즉시 명확 해집니다. 두 클러스터링이 서로 가까운 지에 대한 문제를 완화시키는 것과 같이 일관성 이 있는지 (즉, 하나는 다른 클러스터의 서브 클러스터링인지) 아는 것이 종종 유용합니다 . 클러스터링은 금본위 제와는 거리가 멀지 만 여전히 일관되거나 거의 일관됩니다. 이 경우 해당 금 표준과 관련하여 클러스터링이 잘못되었다고 생각할 이유가 없습니다. 물론, 간단한 클러스터링 Top 및 Bottom은 모든 클러스터링 과 일치 하므로이를 고려해야합니다.

마지막으로 Mirkin, Variation of Information 및 Split / Join과 같은 메트릭은 클러스터링을 비교하는 자연스러운 도구라고 생각합니다. 통계적 독립성을 통합하고 우연히 수정하려는 대부분의 응용 방법은 명확하게 설명하기보다는 지나치게 고 안되고 난독 화됩니다.

두 번째 예 C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} 클러스터링 쌍을 고려하십시오. = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

C3 = {{1, 2, 3, 4} {5, 6, 7, 8, 9, 10} {11, 12, 13, 14, 15, 16}}와 {{1, 2, 3, , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

여기서, C2 는 노드 9 및 10을 이동함으로써 C1 로부터 형성 될 수 있고 C3 은 노드 11 및 12를 이동함으로써 C3 으로부터 형성 될 수있다 . 관련된 클러스터의 크기가 상이하다는 것을 제외하고는 두 변화는 동일하다 ( "두 노드 이동"). . 이 두 가지 예에 대한 클러스터링 메트릭 표는 다음과 같습니다.

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Mirkin / Rand 및 정보의 변화는 클러스터 크기에 영향을받습니다 (그리고 Mirkin은 더 커집니다; 클러스터 크기가 다양 해짐에 따라 더 두드러 질 것입니다). 항상 가장 큰 공통 서브 클러스터를 통해 한 클러스터에서 다른 클러스터로 노드를 "이동"합니다. 상황에 따라 바람직한 특성 일 수 있습니다. Split / Join (이동할 노드 수)에 대한 간단한 해석과 클러스터 크기의 독립성을 알고 있어야합니다. Mirkin과 다양한 정보 사이에서 나는 후자가 매우 바람직하다고 생각합니다.


감사합니다 micans, 이것은 매우 통찰력이 있습니다. 두 번째 테이블을 이해하지 못했습니다. 표의 각 항목에 대해 두 개의 숫자가 쉼표로 구분 된 이유는 무엇입니까? 또한이 주장이 @Suresh와 어떤 관련이 있는지 알고 있습니까?
Amelio Vazquez-Reina

1
A와 B가 군집 인 경우 d (A, B)는 d (A, B) = d (A, X) + d (B, X)로 나눌 수 있습니다. 여기서 X는 하위 군집 인 가장 큰 군집입니다. 양자 모두. Suresh의 표기법에서 우리는 d (A, B) = f (A) + f (B) -2f (X)입니다. 이것은 f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X)로 다시 쓸 수 있습니다. 위의 두 구성 요소 d (A, X) 및 d (B, X)를 쉼표로 구분하여 작성했습니다. 둘 사이의 가장 큰 차이점은 Mirkin / Rand의 2 차 특성입니다. Top / Bottom 및 Left / Right 예제를 보면 Top-Bottom 거리가 큽니다. 이것은 전적으로 Top의 크기 때문입니다.
micans
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.