다차원 클러스터 데이터를 시각적으로 표시


17

16 개의 변수가있는 데이터 세트가 있으며 kmeans로 클러스터링 한 후 두 그룹을 플로팅하려고합니다.

두 군집을 시각적으로 표현하기 위해 어떤 도표를 제안 하시겠습니까?

답변:


23

하나의 올바른 시각화는 없습니다. 보거나 강조하려는 클러스터의 측면에 따라 다릅니다.

각 변수가 어떻게 기여하는지보고 싶습니까? 평행 좌표 플롯을 고려하십시오.

두 군집 및 군집 평균의 평행 좌표

주요 구성 요소를 따라 클러스터가 어떻게 분배되는지 확인 하시겠습니까? Biplot (2D 또는 3D)을 고려하십시오.

클러스터 바이 플롯

모든 차원에서 군집 이상 값을 찾고 싶습니까? 클러스터 1의 중심으로부터의 거리에 대한 클러스터의 중심 2로부터의 거리의 산점도를 고려하십시오.

여기에 이미지 설명을 입력하십시오

클러스터링과 비교하여 쌍별 관계를 보시겠습니까? 클러스터별로 색상이 지정된 산점도 행렬을 고려하십시오.

여기에 이미지 설명을 입력하십시오

군집 거리의 요약보기를 보시겠습니까? 히스토그램, 바이올린 도표 또는 상자 도표와 같은 분포 시각화를 비교해보십시오.

여기에 이미지 설명을 입력하십시오


2

다변량 디스플레이는 특히 많은 수의 변수로 까다 롭습니다. 두 가지 제안이 있습니다.

클러스터링에 특히 중요하거나 실질적으로 흥미로운 특정 변수가있는 경우 산점도 행렬을 사용하여 흥미로운 변수 간의 이변 량 관계를 표시 할 수 있습니다. 더 큰 차원을 추가하기 위해 고급 산점도를 사용할 수도 있습니다 (예 : 세 번째 변수에 비례하는 크기의 모양 사용).

또는 군집을 나타내는 고차원 데이터를 표시하기 위해 개발 된 스프링 플롯을 사용할 수 있습니다. 필자가 익숙한 문헌에서 이것을 본 적이 없지만 다변량 데이터를 표시하는 매우 흥미로운 방법이라고 생각합니다. 다음 인용은 음모가 원래 제안 된 곳입니다.

호프만, PE 등. (1997) DNA 시각 및 분석 데이터 마이닝. IEEE 시각화의 절차에서. 피닉스, AZ, 437-441 쪽.

그리고 여기 에 내가 처음 언급 한 곳이 있습니다.

지금, 공정한 경고, 나는 오렌지 외부의 스프링 플롯의 구현을 찾을 수 없었습니다. 그런 다음 다시 열심히 검색하지 않았습니다!

나는 당신의 데이터가 실제적이고 가치 있고 연속적이라고 가정하고 있습니다.


1
R에 대한 Radviz 구현이 있습니다 : cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

R의 factoextra pacakge에서 fviz_cluster 함수를 사용할 수 있습니다. 데이터의 산포도를 표시하고 점의 다른 색상이 클러스터가됩니다.

내가 아는 한,이 기능은 PCA를 수행 한 다음 상위 2 개의 PC를 선택하고 2D에 플롯합니다.

내 대답에 대한 제안 / 개선은 가장 환영합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.