50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다.
나는 다음 두 가지 접근법을 시도했다.
(a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 간단한 K- 평균을 실행하여 군집을 식별합니다.
(b) 50x50 (코사인) 유사성 매트릭스를 구성합니다. 차원 축소를 위해 스펙트럼 클러스터링 을 실행 한 다음 K- 평균을 다시 수행하십시오.
직접 PCA를 수행하는 것과 유사성 행렬의 고유 값을 사용하는 것 사이의 개념적 차이는 무엇입니까? 하나는 다른 것보다 낫습니까?
또한 이러한 데이터를 2D로 시각화하는 더 좋은 방법이 있습니까? 내 샘플 크기는 항상 50으로 제한되고 기능 세트는 항상 10-15 범위에 있으므로 여러 가지 접근 방식을 즉시 시도하여 가장 좋은 방법을 선택하려고합니다.
관련 질문 : 클러스터링 또는 PCA별로 샘플 그룹화