데이터를 그룹으로 분류하는 실험을하고 있습니다. 나는이 주제를 처음 접했고 일부 분석 결과를 이해하려고 노력했다.
Quick-R의 예제를 사용하여 여러 R
패키지가 제안됩니다. 이 패키지 중 두 가지 ( 함수 및 )를 fpc
사용해 보았습니다 . 내가 이해하지 못하는이 분석의 한 측면은 결과를 비교하는 것입니다.kmeans
mclust
# comparing 2 cluster solutions
library(fpc)
cluster.stats(d, fit1$cluster, fit2$cluster)
fpc
설명서 의 관련 부분을 읽었으며 목표로해야 할 내용이 아직 명확하지 않습니다. 예를 들어, 이것은 두 가지 다른 클러스터링 방식을 비교 한 결과입니다.
$n
[1] 521
$cluster.number
[1] 4
$cluster.size
[1] 250 119 78 74
$diameter
[1] 5.278162 9.773658 16.460074 7.328020
$average.distance
[1] 1.632656 2.106422 3.461598 2.622574
$median.distance
[1] 1.562625 1.788113 2.763217 2.463826
$separation
[1] 0.2797048 0.3754188 0.2797048 0.3557264
$average.toother
[1] 3.442575 3.929158 4.068230 4.425910
$separation.matrix
[,1] [,2] [,3] [,4]
[1,] 0.0000000 0.3754188 0.2797048 0.3557264
[2,] 0.3754188 0.0000000 0.6299734 2.9020383
[3,] 0.2797048 0.6299734 0.0000000 0.6803704
[4,] 0.3557264 2.9020383 0.6803704 0.0000000
$average.between
[1] 3.865142
$average.within
[1] 1.894740
$n.between
[1] 91610
$n.within
[1] 43850
$within.cluster.ss
[1] 1785.935
$clus.avg.silwidths
1 2 3 4
0.42072895 0.31672350 0.01810699 0.23728253
$avg.silwidth
[1] 0.3106403
$g2
NULL
$g3
NULL
$pearsongamma
[1] 0.4869491
$dunn
[1] 0.01699292
$entropy
[1] 1.251134
$wb.ratio
[1] 0.4902123
$ch
[1] 178.9074
$corrected.rand
[1] 0.2046704
$vi
[1] 1.56189
여기서 가장 중요한 질문은이 군집 비교 결과를 해석하는 방법을 더 잘 이해하는 것입니다.
이전에는 데이터 스케일링과 거리 매트릭스 계산의 효과에 대해 더 많이 물었습니다. 그러나 그것은 mariana soffer에 의해 명확하게 대답되었으며, 나는 두 가지 다른 클러스터링 알고리즘의 비교 인 내 출력의 해석에 관심이 있다는 것을 강조하기 위해 내 질문을 재구성하고 있습니다.
질문의 이전 부분 : 클러스터링을 수행하는 경우 항상 데이터를 확장해야합니까? 예를 들어, dist()
스케일 된 데이터 세트의 cluster.stats()
함수를 함수의 입력으로 사용하고 있지만 진행 상황을 완전히 이해하지 못합니다. 나는 dist()
여기 에 대해 읽었으며 다음 과 같이 말합니다.
이 함수는 지정된 거리 측정 값을 사용하여 계산 된 거리 행렬을 계산하고 반환하여 데이터 행렬의 행 사이의 거리를 계산합니다.