나와 같은 비 통계학 자의 VI
경우 Marina Melia " 클러스터링 비교-정보 기반 거리 "(2007 년 저널)에 의해 관련 논문을 읽은 후에도 메트릭 (정보 변형) 아이디어를 포착하기가 매우 어렵습니다 . 사실, 많은 클러스터링 용어에 익숙하지 않습니다.
아래는 MWE이며 사용되는 다른 메트릭에서 출력이 무엇을 의미하는지 알고 싶습니다. R에 동일한 순서로 두 개의 클러스터가 있습니다.
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
이제 VI
다른 메트릭스 / 지수뿐만 아니라 문헌 에 나타나는 순서대로 순서대로 비교 합니다.
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
보시다시피 그 VI
가치는 다른 모든 것과 다릅니다.
- 이 값은 무엇을 말하며 (아래 그림과 어떻게 관련이 있습니까?)
- 이 값을 낮게 또는 높게 고려하기위한 지침은 무엇입니까?
- 정의 된 지침이 있습니까?
아마도 해당 분야의 전문가들은 그러한 결과를보고하려고 할 때 저와 같은 평신도들에게 합리적인 설명을 제공 할 수 있습니다. 누군가가 다른 메트릭에 대한 지침도 제공한다면 정말 감사하겠습니다.
나는 여기 와 여기에 관련된 CV 스레드를 읽었 지만 여전히 직관을 파악할 수 없었습니다 VI
. 누군가 이것을 일반 영어로 설명 할 수 있습니까?
아래 그림은 위에서 언급 한 논문의 그림 2입니다 VI
.
2
이러한 모든 유사점과 메트릭 (두 유형의 차이점에 유의)은 두 파티션 사이에서 가장 큰 공통 서브 클러스터링과 관련된 조각화 정도를 측정합니다. 그들은 모두 혼란 매트릭스라고 알려진 것을 사용합니다. VI의 정확한 공식을 고려하면 해당 조각화를 측정하는 것으로 이해 될 수 있습니다. 나는 Meila 간행물 중 하나에서 공식을보고, 모든 거리가 다른 스케일로 인해 모든 거리의 정규화 된 버전에 대해 읽을 것을 제안합니다. 이것이 가장 중요한 점일 수 있습니다.
—
micans