k- 평균 군집 솔루션에서 데이터 세트의 어떤 기능 / 변수가 가장 중요 / 주요한지를 결정하는 방법이 있습니까?
k- 평균 군집 솔루션에서 데이터 세트의 어떤 기능 / 변수가 가장 중요 / 주요한지를 결정하는 방법이 있습니까?
답변:
Burns, Robert P. 및 Richard Burns 책에서 각 기능의 유용성을 정량화하는 한 가지 방법 (= 변수 = 차원) . SPSS를 사용한 비즈니스 조사 방법 및 통계. Sage, 2008. ( mirror ), 클러스터의 특징을 구별하는 기능의 차별적 인 능력에 의해 유용성이 정의됩니다.
일반적으로 ANOVA를 사용하여 각 차원의 각 군집에 대한 평균을 조사하여 군집이 얼마나 다른지 평가합니다. 이상적으로는 모든 차원은 아니지만 분석에 사용되는 대부분의 다른 방법을 사용하는 것이 이상적입니다. 각 차원에서 수행 된 F 값의 크기는 각 차원이 군집을 얼마나 잘 식별하는지 나타냅니다.
또 다른 방법은 특정 기능을 제거하고 이것이 내부 품질 지수에 어떤 영향을 미치는지 보는 것 입니다. 첫 번째 솔루션과 달리 분석하려는 각 기능 (또는 기능 집합)에 대한 클러스터링을 다시 실행해야합니다.
참고 사항 :
어떤 변수가 어떤 클러스터에 중요한지에 더 중점을 둔 다른 두 가지 가능성을 생각할 수 있습니다.
멀티 클래스 분류. 동일한 클래스 (예 : 클래스 1)의 클러스터 x 멤버에 속하는 오브젝트와 두 번째 클래스 (예 : 클래스 2)의 다른 클러스터 멤버에 속하는 오브젝트를 고려하십시오. 클래스 멤버십을 예측할 수 있도록 분류자를 훈련시킵니다 (예 : 클래스 1과 클래스 2). 분류 자의 변수 계수는 클러스터링 객체에서 클러스터 x 에 대한 각 변수의 중요성을 추정하는 역할을합니다 . 다른 모든 클러스터에 대해이 방법을 반복하십시오.
클러스터 내 변수 유사성. 모든 변수에 대해 각 객체의 중심과의 평균 유사성을 계산하십시오. 중심과 객체 간의 유사성 이 높은 변수는 유사성 이 낮은 변수보다 클러스터링 프로세스에 더 중요합니다 . 물론 유사성 크기는 상대적이지만, 이제 변수는 각 클러스터에서 개체를 클러스터링하는 데 도움이되는 정도에 따라 순위를 지정할 수 있습니다.