군집 검증에 대한 정보 변형 (VI) 지표의 직관은 무엇입니까?


11

나와 같은 비 통계학 자의 VI경우 Marina Melia " 클러스터링 비교-정보 기반 거리 "(2007 년 저널)에 의해 관련 논문을 읽은 후에도 메트릭 (정보 변형) 아이디어를 포착하기가 매우 어렵습니다 . 사실, 많은 클러스터링 용어에 익숙하지 않습니다.

아래는 MWE이며 사용되는 다른 메트릭에서 출력이 무엇을 의미하는지 알고 싶습니다. R에 동일한 순서로 두 개의 클러스터가 있습니다.

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

이제 VI다른 메트릭스 / 지수뿐만 아니라 문헌 에 나타나는 순서대로 순서대로 비교 합니다.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

보시다시피 그 VI가치는 다른 모든 것과 다릅니다.

  • 이 값은 무엇을 말하며 (아래 그림과 어떻게 관련이 있습니까?)
  • 이 값을 낮게 또는 높게 고려하기위한 지침은 무엇입니까?
  • 정의 된 지침이 있습니까?

아마도 해당 분야의 전문가들은 그러한 결과를보고하려고 할 때 저와 같은 평신도들에게 합리적인 설명을 제공 할 수 있습니다. 누군가가 다른 메트릭에 대한 지침도 제공한다면 정말 감사하겠습니다.

나는 여기여기에 관련된 CV 스레드를 읽었 지만 여전히 직관을 파악할 수 없었습니다 VI. 누군가 이것을 일반 영어로 설명 할 수 있습니까?

아래 그림은 위에서 언급 한 논문의 그림 2입니다 VI.

여기에 이미지 설명을 입력하십시오


2
이러한 모든 유사점과 메트릭 (두 유형의 차이점에 유의)은 두 파티션 사이에서 가장 큰 공통 서브 클러스터링과 관련된 조각화 정도를 측정합니다. 그들은 모두 혼란 매트릭스라고 알려진 것을 사용합니다. VI의 정확한 공식을 고려하면 해당 조각화를 측정하는 것으로 이해 될 수 있습니다. 나는 Meila 간행물 중 하나에서 공식을보고, 모든 거리가 다른 스케일로 인해 모든 거리의 정규화 된 버전에 대해 읽을 것을 제안합니다. 이것이 가장 중요한 점일 수 있습니다.
micans

또한 VI의 해석에 어려움을 겪고 있었고이 기사 가 매우 유용하다는 것을 알았습니다 !
피자

답변:


1

측정 값이 다른 해석을 가질 수 있음을 알아야합니다.

플롯에서 볼 때, 낮은 VI가 좋습니다.

1 - 0.2451685 = 0.7548315

이는 다른 조치와 훨씬 더 일치합니다.

그러나 이러한 측정 값의 대부분은 다른 것을 측정합니다 .

한 측정 값이 0.8이기 때문에 다른 측정 값도 0.8이어야한다고 가정 할 이유가 없습니다.


각기 다른 측정 방법을 설명 할 수 있다면 OP가 감사하게 생각합니다.
gung-Monica Monica 복원

나는 그들 각각을 설명하기에 충분히 그들을 모른다. 크기 / 단위가 비슷하지 않다는 것이 분명합니다. 볼트와 발이 비교할 수없는 것처럼.
종료-익명-무스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.