작은 샘플 집합의 부울 기능에 대한 PCA와 스펙트럼 클러스터링의 차이점


10

50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다.

나는 다음 두 가지 접근법을 시도했다.

(a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 간단한 K- 평균을 실행하여 군집을 식별합니다.

(b) 50x50 (코사인) 유사성 매트릭스를 구성합니다. 차원 축소를 위해 스펙트럼 클러스터링 을 실행 한 다음 K- 평균을 다시 수행하십시오.

직접 PCA를 수행하는 것과 유사성 행렬의 고유 값을 사용하는 것 사이의 개념적 차이는 무엇입니까? 하나는 다른 것보다 낫습니까?

또한 이러한 데이터를 2D로 시각화하는 더 좋은 방법이 있습니까? 내 샘플 크기는 항상 50으로 제한되고 기능 세트는 항상 10-15 범위에 있으므로 여러 가지 접근 방식을 즉시 시도하여 가장 좋은 방법을 선택하려고합니다.

관련 질문 : 클러스터링 또는 PCA별로 샘플 그룹화

답변:


9

직접 PCA를 수행하는 것과 유사성 행렬의 고유 값을 사용하는 것 사이의 개념적 차이는 무엇입니까?

PCA는 공분산 또는 상관 행렬에서 수행되지만 스펙트럼 군집화는 유사성 매트릭스 (예 : 코사인 유사성으로 구축)를 사용하여 클러스터를 찾을 수 있습니다.

둘째, 스펙트럼 클러스터링 알고리즘은 그래프 파티셔닝 (일반적으로 그래프의 가장 잘린 부분을 찾는 것)을 기반으로하며 PCA는 대부분의 분산이있는 방향을 찾습니다. 두 경우 모두 고유 벡터를 찾게되지만 개념적 접근 방식은 다릅니다.

마지막으로 PCA와 스펙트럼 클러스터링은 다른 목적으로 사용됩니다. 하나는 차원 축소 기술이고 다른 하나는 클러스터링에 대한 접근 방식입니다 (그러나 차원 축소를 통해 수행됨).


5

부울 (즉, 두 개의 클래스가있는 범주 형) 기능의 경우 PCA를 사용하는 좋은 대안은 PCA를 범주 형 변수로 확장 한 MCA (Multiple Correspondence Analysis)를 사용하는 것입니다 (관련 스레드 참조 ). MCA에 대한 배경 지식은 Husson et al. (2010) , 또는 Abdi and Valentin (2007) . MCA를 수행하기위한 우수한 R 패키지는 FactoMineR 입니다. 주요 구성 요소에 대한 관측 값의 2 차원 맵을 플롯하는 도구를 제공하므로 매우 통찰력이 있습니다.

아래는 지난 연구 프로젝트 중 하나의 ggplot2로 작성된 두 가지지도 예입니다. 나는 약 60 개의 관측 만했고 좋은 결과를 얻었습니다. 첫 번째 맵은 PC1-PC2 공간의 관측치, PC3-PC4 공간의 두 번째 맵을 나타냅니다. 변수도 맵에 표시되므로 차원의 의미를 해석하는 데 도움이됩니다. 이러한 여러지도에서 통찰력을 수집하면 데이터에서 무슨 일이 일어나고 있는지 잘 알 수 있습니다.

여기에 이미지 설명을 입력하십시오

위에 링크 된 웹 사이트에서 주요 구성 요소의 계층 적 클러스터링을 나타내며 관심이있을만한 새로운 절차 인 HCPC에 대한 정보도 찾을 수 있습니다. 기본적으로이 방법은 다음과 같이 작동합니다.

  • MCA를 수행하고
  • 첫 번째 치수를 유지 합니다 (여기서 는 원래 수의 피처 와 함께 ). 이 단계는 일부 노이즈를 제거하므로보다 안정적인 클러스터링이 가능하다는 점에서 유용합니다.kk<pp
  • 보유 PC의 공간에서 응집 (하단) 계층 적 클러스터링을 수행합니다. PC 공간에서 관측치의 투영 좌표 (실수)를 사용하므로 연계에 대한 Ward의 기준 (클러스터 내 편차의 최소 증가)과 함께 유클리드 거리를 사용할 수 있습니다. 당신이 원하는 높이로 덴도 그램을 자르거나 휴리스틱에 기초하여 R 기능을 자르도록 할 수 있습니다.
  • (선택 사항) K- 평균 군집화를 수행하여 군집을 안정화합니다. 초기 구성은 이전 단계에서 찾은 클러스터의 중심에 의해 제공됩니다.

그런 다음 클러스터를 조사 할 수있는 많은 방법이 있습니다 (대부분의 대표적인 기능, 대부분의 대표적인 개인 등).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.