Sergey의 답변에는 임계점이 포함되어 있습니다. 즉, 실루엣 계수가 달성 된 클러스터링 품질을 수량화하므로 실루엣 계수를 최대화하는 클러스터 수를 선택해야합니다.
긴 대답은 클러스터링 노력의 결과를 평가하는 가장 좋은 방법은 실제로 인간 클러스터를 검사하고 데이터가 나타내는 것, 클러스터가 나타내는 것, 클러스터링의 목표
한계를 완전히 이해하면서 도구로 사용해야하는 군집 결과를 평가하는 수많은 정량적 방법이 있습니다. 그것들은 본질적으로 상당히 직관적 인 경향이 있으며, 따라서 일반적인 클러스터링 문제와 같은 자연스러운 매력을 가지고 있습니다.
예 : 군집 질량 / 반경 / 밀도, 군집 간의 응집 또는 분리 등 이러한 개념은 종종 결합됩니다. 예를 들어 군집이 성공한 경우 응집 대 분리 비율이 커야합니다.
클러스터링 측정 방식은 사용 된 클러스터링 알고리즘 유형에 따라 알려집니다. 예를 들어, 전체 클러스터링 알고리즘 (모든 포인트가 클러스터에 배치됨)의 품질 측정은 임계 값 기반 퍼지 클러스터링 알고리즘 (일부 포인트가 '노이즈'로 클러스터되지 않은 상태)의 품질 측정과 매우 다를 수 있습니다. ).
실루엣 계수는 그러한 측정 중 하나입니다. 다음과 같이 작동합니다.
각 점 p에 대해 먼저 동일한 군집에서 p와 다른 모든 점 사이의 평균 거리를 찾으십시오 (이는 응집의 척도입니다. A라고 함). 그런 다음 p와 가장 가까운 군집의 모든 점 사이의 평균 거리를 찾으십시오 (이는 가장 가까운 다른 군집과의 거리를 측정 한 것으로 B라고 함). p에 대한 실루엣 계수는 B와 A의 차이를 2보다 큰 것으로 나눈 값으로 정의됩니다 (max (A, B)).
각 점의 군집 계수를 평가하고 이로부터 '전체'평균 군집 계수를 얻을 수 있습니다.
직관적으로, 우리는 클러스터 사이의 공간을 측정하려고합니다. 군집 응집력이 양호하고 (A는 작음) 군집 분리가 양호하면 (B는 큼) 분자가 커집니다.
이것을 그래픽으로 보여주기 위해 여기에 예제를 구성했습니다.
이 도표에서 동일한 데이터가 5 번 그려집니다. 색상은 k = 1,2,3,4,5 인 k- 평균 군집화로 생성 된 군집을 나타냅니다. 즉, 클러스터링 알고리즘으로 데이터를 2 개의 클러스터로 나눈 다음 3 개 등으로 나누고 그에 따라 그래프에 색상을 지정했습니다.
실루엣 플롯은 k = 3 일 때 실루엣 계수가 가장 높았다는 것을 보여줍니다. 이는 최적의 군집 수를 나타냅니다. 이 예에서는 데이터를 시각화 할 수있어 운이 좋으며 실제로 3 개의 클러스터가이 데이터 세트의 세그먼트를 가장 잘 포착한다는 데 동의 할 수 있습니다.
차원이 높아서 데이터를 시각화 할 수없는 경우 실루엣 플롯은 여전히 제안을 제공합니다. 그러나, 나는 여기에 다소 긴 대답이 특정 시나리오에서이 "제안"이 매우 불충분하거나 잘못 될 수 있다는 점을 지적하기를 바랍니다.