배경 : 도시의 주거 지역을 주택 단위 밀도, 인구 밀도, 녹지 면적, 주택 가격, 학교 수 / 보건소 / 보육 센터 등 사회 경제적 특성에 따라 그룹으로 분류하고 싶습니다. 주거 지역을 몇 개의 다른 그룹으로 나눌 수 있는지, 그리고 그들의 독특한 특징은 무엇인지 이해하고 싶습니다. 이 정보는 도시 계획을 용이하게 할 수 있습니다.
몇 가지 예 (참조 :이 블로그 게시물 : Delta Aircraft의 PCA 및 K- 평균 군집 )를 기준으로 분석 방법은 다음과 같습니다.
먼저 PCA 분석을 수행하십시오.
PCA 결과를 기반으로 고유 그룹 (클러스터) 수를 결정합니다 (예 : "팔꿈치"방법 사용 또는 전체 분산의 80-90 %를 설명하는 구성 요소 수).
군집 수를 결정한 후 k- 평균 군집을 적용하여 분류를 수행하십시오.
내 질문 : PCA 구성 요소의 수는 클러스터 분석과 관련이있는 것 같습니다. 예를 들어, 5 개의 PCA 구성 요소가 모든 기능의 변형의 90 % 이상을 설명하면 k- 평균 군집화를 적용하고 5 개의 군집을 얻을 수 있습니다. 그렇다면 5 개의 그룹이 PCA 분석에서 5 개의 구성 요소에 정확히 해당됩니까?
다시 말해, 내 질문은 PCA 분석과 k- 평균 군집 간의 관계는 무엇인가?
업데이트 : Emre, xeon 및 Kirill의 입력 덕분입니다. 따라서 현재 답변 :
군집 분석 전에 PCA를 수행하면 피쳐 추출기 및 군집을 시각화 / 표시하는 차원 축소에 유용합니다.
클러스터링 후 PCA를 수행하면 클러스터링 알고리즘의 유효성을 검증 할 수 있습니다 (참조 : 커널 기본 구성 요소 분석 ).
클러스터링 전에 데이터 세트의 차원을 줄이기 위해 PCA가 적용되는 경우가 있습니다. 그러나 Yeung & Ruzzo (2000)는 원래 변수 대신 PC를 사용한 클러스터링이 클러스터 품질을 향상시킬 필요는 없음을 보여주었습니다. 특히, 처음 몇 개의 PC (데이터의 대부분의 변형을 포함)는 반드시 대부분의 클러스터 구조를 캡처하지는 않습니다.
- Yeung, Ka Yee 및 Walter L. Ruzzo. 유전자 발현 데이터 클러스터링을위한 주요 성분 분석에 대한 실증적 연구. 워싱턴 대학 컴퓨터 공학부 기술 보고서 ( pdf )
2 단계 클러스터링 분석 전에 PCA가 필요한 것 같습니다 . PCA에서 식별 된 요소를 사용하여 클러스터 분석이 실행 된 Ibes (2015)를 기반으로합니다.
- Ibes, Dorothy C. 도시 공원 시스템의 다차원 분류 및 지분 분석 : 새로운 방법론 및 사례 연구 응용 프로그램. 조경 및 도시 계획 , 제 137 권, 2015 년 5 월, 페이지 122–137.