PCA가 k- 평균 군집 분석에 어떻게 도움이됩니까?


32

배경 : 도시의 주거 지역을 주택 단위 밀도, 인구 밀도, 녹지 면적, 주택 가격, 학교 수 / 보건소 / 보육 센터 등 사회 경제적 특성에 따라 그룹으로 분류하고 싶습니다. 주거 지역을 몇 개의 다른 그룹으로 나눌 수 있는지, 그리고 그들의 독특한 특징은 무엇인지 이해하고 싶습니다. 이 정보는 도시 계획을 용이하게 할 수 있습니다.

몇 가지 예 (참조 :이 블로그 게시물 : Delta Aircraft의 PCA 및 K- 평균 군집 )를 기준으로 분석 방법은 다음과 같습니다.

  1. 먼저 PCA 분석을 수행하십시오.

  2. PCA 결과를 기반으로 고유 그룹 (클러스터) 수를 결정합니다 (예 : "팔꿈치"방법 사용 또는 전체 분산의 80-90 %를 설명하는 구성 요소 수).

  3. 군집 수를 결정한 후 k- 평균 군집을 적용하여 분류를 수행하십시오.

내 질문 : PCA 구성 요소의 수는 클러스터 분석과 관련이있는 것 같습니다. 예를 들어, 5 개의 PCA 구성 요소가 모든 기능의 변형의 90 % 이상을 설명하면 k- 평균 군집화를 적용하고 5 개의 군집을 얻을 수 있습니다. 그렇다면 5 개의 그룹이 PCA 분석에서 5 개의 구성 요소에 정확히 해당됩니까?

다시 말해, 내 질문은 PCA 분석과 k- 평균 군집 간의 관계는 무엇인가?

업데이트 : Emre, xeon 및 Kirill의 입력 덕분입니다. 따라서 현재 답변 :

  1. 군집 분석 전에 PCA를 수행하면 피쳐 추출기 및 군집을 시각화 / 표시하는 차원 축소에 유용합니다.

  2. 클러스터링 후 PCA를 수행하면 클러스터링 알고리즘의 유효성을 검증 할 수 있습니다 (참조 : 커널 기본 구성 요소 분석 ).

  3. 클러스터링 전에 데이터 세트의 차원을 줄이기 위해 PCA가 적용되는 경우가 있습니다. 그러나 Yeung & Ruzzo (2000)는 원래 변수 대신 PC를 사용한 클러스터링이 클러스터 품질을 향상시킬 필요는 없음을 보여주었습니다. 특히, 처음 몇 개의 PC (데이터의 대부분의 변형을 포함)는 반드시 대부분의 클러스터 구조를 캡처하지는 않습니다.

    • Yeung, Ka Yee 및 Walter L. Ruzzo. 유전자 발현 데이터 클러스터링을위한 주요 성분 분석에 대한 실증적 연구. 워싱턴 대학 컴퓨터 공학부 기술 보고서 ​​( pdf )
  4. 2 단계 클러스터링 분석 전에 PCA가 필요한 것 같습니다 . PCA에서 식별 된 요소를 사용하여 클러스터 분석이 실행 된 Ibes (2015)를 기반으로합니다.


1
차원 축소를 위해 기능 추출기로 PCA를 사용하고 클러스터를 시각화 할 수 있습니다.
Emre

3
간단하게 시작하십시오. 보유한 데이터에서 직접 분류기를 실행하고 성능을 기록하십시오. 성능이 만족스럽지 않으면 PCA (분류 된 고유 값 그림의 "무릎"에서 구성 요소 수 선택) 및 k- 평균을 실행하십시오. 좋은 클러스터가 보이면 PCA + classifier가 잘 작동 할 가능성이 높습니다.
Vladislavs Dovgalecs 2016 년

1
클러스터링 PCA를 수행 하여 클러스터링 알고리즘의 유효성을 검증 할 수 있습니다. 각 지점의 클러스터 레이블로 색상 코드를 지정하십시오. 또한 커널 PCA를 살펴 보는 것이 좋습니다 .
Emre

차원 축소 및 클러스터링을 동시에 수행하는 방법이 있습니다. 이들 방법은 클러스터의 식별을 용이하게하기 위해 최적으로 선택된 저 차원 표현을 추구한다. 예를 들어, R의 clustrd package 및 관련 참조를 참조하십시오.
Nat

답변:


16

PCA는 클러스터링 방법이 아닙니다. 그러나 때로는 클러스터를 밝히는 데 도움이됩니다.

010

1102101010

0


입력 해 주셔서 감사합니다. 평균이 0 인 10 차원 정규 분포가 무엇인지 설명 할 수 있습니까? 10 개의 입력 피처 변수를 의미하고 각 변수는 정규 분포를 따릅니다.
enaJ

죄송합니다, 10x10 대칭 행렬 인 10 차원 벡터 및 공분산 행렬이되는 평균으로 다변량 정규 분포를 따르는 랜덤 변수에 대해 이야기하고 있습니다.
Kirill
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.