k- 평균 군집에 클래스 레이블 할당


10

클러스터링에 대한 매우 기본적인 질문이 있습니다. 중심이있는 k 개의 군집을 찾은 후 군집화 한 데이터 요소의 클래스를 해석하는 방법 (각 군집에 의미있는 등급 레이블 지정)은 어떻게합니까? 발견 된 클러스터의 유효성 검사에 대해 이야기하고 있지 않습니다.

레이블이 지정된 작은 데이터 포인트 세트를 수행하고 레이블이 지정된 포인트가 속하는 클러스터를 계산하고 각 클러스터가 수신하는 포인트의 유형 및 수를 기반으로 레이블을 결정할 수 있습니까? 이것은 명백한 것처럼 보이지만 이런 식으로 클러스터에 레이블을 할당하는 것이 얼마나 표준인지 모르겠습니다.

명확히하기 위해 레이블을 사용하지 않는 클러스터되지 않은 클러스터링을 먼저 수행하여 클러스터를 먼저 찾고 싶습니다. 그런 다음 클러스터를 찾은 후 몇 가지 예제 데이터 포인트의 속성을 기반으로 클러스터에 의미있는 클래스 레이블을 지정하려고합니다.


나는 당신의 질문을 이해하지 못합니다 : 일반적으로 k- 평균 알고리즘은 각 데이터 포인트의 클래스 멤버쉽에 대한 정보를 반환해야합니다. 실제 데이터 포인트 또는 새로운 관측치에 대해 이야기하고 있습니까?
chl

@chi Riyaz가 클러스터에 레이블을 지정할 이름 을 찾는 것에 관심이 있고 일부 포인트의 이름을 지정 하는 우선 순위에 대해 이야기 하고 클러스터에서 이름 지정된 포인트의 우위를 고려한 알고리즘을 사용하여 클러스터 이름을 지정합니다.
Glen_b-복지 모니카

2
@Riyaz, 귀하의 질문을 이해하기 위해 다음과 같은 요인 분석을 사용할 수 있습니까? 누군가가 변수 집합을 분석하여 '함께있는'것으로 보이는 변수 그룹으로 변수를 묶을 수도 있지만 분석가는 각 클러스터를 구성하는 변수의 특성에 대해 이름과 함께 생각해 볼 필요가 있습니다. / 각 클러스터 (요인)이 무엇인지에 대한 사고 방식 이다 . 본질적으로 당신이 여기서 얻는 것입니까?
gung-복원 Monica Monica

답변:


4

예. 제안하는 것은 전적으로 표준이며 표준 k- 평균 소프트웨어가 자동으로 작동하는 방식입니다. k- 평균의 경우 각 관측치 (데이터 점)와 각 군집 평균 (중심점) 간의 유클리드 거리를 계산하고 관측치를 가장 유사한 군집에 할당합니다. 그런 다음 군집의 레이블은 다른 군집에 대한 관측치의 평균을 기준으로 군집으로 분류 된 관측치의 평균 특성을 검사하여 결정됩니다.


3

kmeans 객체의 이름을 보면 "클러스터"객체가 있음을 알 수 있습니다. 여기에는 입력 데이터와 동일하게 주문 된 클래스 레이블이 포함됩니다. 다음은 클러스터 레이블을 다시 데이터에 바인딩하는 간단한 예입니다.

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

클러스터에 대한 레이블은 클러스터 내 다수 샘플의 클래스를 기반으로 할 수 있습니다. 그러나 이는 클러스터 수가 클래스 수와 동일한 경우에만 해당됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.