k- 평균 클러스터 파티션에서 가장 중요한 기능 추정


19

k- 평균 군집 솔루션에서 데이터 세트의 어떤 기능 / 변수가 가장 중요 / 주요한지를 결정하는 방법이 있습니까?


1
"중요 / 주요"를 어떻게 정의합니까? 군집을 구별하는 데 가장 유용한 것을 의미합니까?
Franck Dernoncourt 1

3
예, 가장 유용한 것은 제가 의미 한 것입니다. 나는 이것을 알아내는 데있어 내 문제의 일부가 어떻게 그것을 말로 표현하는 것이라고 생각한다.
user1624577

설명해 주셔서 감사합니다. 기계 학습에서이 문제를 지정하는 일반적인 용어 중 하나는 기능 선택 입니다.
Franck Dernoncourt

답변:


8

Burns, Robert P. 및 Richard Burns 책에서 각 기능의 유용성을 정량화하는 한 가지 방법 (= 변수 = 차원) . SPSS를 사용한 비즈니스 조사 방법 및 통계. Sage, 2008. ( mirror ), 클러스터의 특징을 구별하는 기능의 차별적 인 능력에 의해 유용성이 정의됩니다.

일반적으로 ANOVA를 사용하여 각 차원의 각 군집에 대한 평균을 조사하여 군집이 얼마나 다른지 평가합니다. 이상적으로는 모든 차원은 아니지만 분석에 사용되는 대부분의 다른 방법을 사용하는 것이 이상적입니다. 각 차원에서 수행 된 F 값의 크기는 각 차원이 군집을 얼마나 잘 식별하는지 나타냅니다.

또 다른 방법은 특정 기능을 제거하고 이것이 내부 품질 지수에 어떤 영향을 미치는지 보는 것 입니다. 첫 번째 솔루션과 달리 분석하려는 각 기능 (또는 기능 집합)에 대한 클러스터링을 다시 실행해야합니다.

참고 사항 :


4
이 상황에서 한 것을 추가하는 것이 매우 중요 하지 통계적 유의성의 지표로 그 F (또는 P) 값 (즉, 상대적으로 인구)을 가지고 있지만, 단순히 차이의 크기의 지표로.
ttnphns

3

어떤 변수가 어떤 클러스터에 중요한지에 더 중점을 둔 다른 두 가지 가능성을 생각할 수 있습니다.

  1. 멀티 클래스 분류. 동일한 클래스 (예 : 클래스 1)의 클러스터 x 멤버에 속하는 오브젝트와 두 번째 클래스 (예 : 클래스 2)의 다른 클러스터 멤버에 속하는 오브젝트를 고려하십시오. 클래스 멤버십을 예측할 수 있도록 분류자를 훈련시킵니다 (예 : 클래스 1과 클래스 2). 분류 자의 변수 계수는 클러스터링 객체에서 클러스터 x 에 대한 각 변수의 중요성을 추정하는 역할을합니다 . 다른 모든 클러스터에 대해이 방법을 반복하십시오.

  2. 클러스터 내 변수 유사성. 모든 변수에 대해 각 객체의 중심과의 평균 유사성을 계산하십시오. 중심과 객체 간의 유사성 이 높은 변수는 유사성 이 낮은 변수보다 클러스터링 프로세스에 더 중요합니다 . 물론 유사성 크기는 상대적이지만, 이제 변수는 각 클러스터에서 개체를 클러스터링하는 데 도움이되는 정도에 따라 순위를 지정할 수 있습니다.


0

다음은 매우 간단한 방법입니다. 두 군집 중심 간의 유클리드 거리는 개별 피처 간의 제곱 차이의 합입니다. 그런 다음 각 기능의 가중치로 제곱 차이를 사용할 수 있습니다.

유클리드 거리

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.