답변:
R 패키지 rggobi와 함께 GGobi (http://www.ggobi.org/)는이 작업에 완벽하게 적합합니다.
예제는 관련 프리젠 테이션을 참조하십시오. http://www.ggobi.org/book/2007-infovis/05-clustering.pdf
clusterfly 및 gcExplorer 패키지를 사용하여 R 에서 높은 차원의 클러스터링 결과를 탐색 할 수 있습니다 . 자세한 내용은 여기 를 참조 하십시오 .
(월 후) k- 클러스터를 그림으로 나타내고 다양한 k의 효과를 보는 좋은 방법은 최소 스패닝 트리를 만들고 가장 긴 가장자리를 보는 것입니다. 예를 들어
여기에서 가장 긴 에지 9 855 899 942 954 1,003 1,005 1,069 1,134 1267. 10 개 클러스터있다
9 개 클러스터 시안을 855 가장자리 붕괴; 8의 경우 자주색 899; 등등.
단일 링크 k- 클러스터링 알고리즘은 정확하게 Kruskal의 알고리즘입니다. MST를 찾고 k-1의 가장 비싼 에지를 삭제하는 것과 같습니다.
— 웨인, 욕심 알고리즘 .
22000 포인트, 242M 쌍 거리, ~ 1 기가 바이트 (float32) : 적합 할 수 있습니다.
2 차원에서 고차원 트리 나 그래프를 보려면 다차원 스케일링 (Kruskal) 및 차원 축소에 대한 거대한 문헌을 참조하십시오. 그러나 20보다 희미한 경우 대부분의 거리가 중앙값에 가깝기 때문에 치수 축소 가 작동 하지 않는다고 생각합니다 .
또한 오픈 소스 데이터 마이닝 소프트웨어 인 ELKI도 살펴보십시오 . Wikimedia commons에는 ELKI로 생성 된 이미지 가 포함 된 갤러리가 있으며 그 중 다수는 클러스터 분석과 관련이 있습니다.
Cluster 3.0을 살펴보십시오 . 그것이 당신이 원하는 모든 것을 할 것인지 확신 할 수 없지만, 잘 문서화되어 있으며 몇 가지 거리 측정법 중에서 선택할 수 있습니다. 시각화 부분은 Java TreeView ( 스크린 샷 ) 라는 별도의 프로그램을 통해 이루어 집니다.
GGobi는 이것에 흥미 롭습니다. 다른 접근법은 유사성 / 역 거리 행렬을 네트워크 인접 행렬로 취급하고이를 네트워크 분석 루틴 (예를 들어, R의 igraph 또는 Pajek)에 공급하는 것일 수있다. 이 접근법을 사용하여 다양한 컷 포인트에서 노드 거리를 이진 타이로 절단하는 실험을 해 보았습니다.
DataMelt 프리 숫자 소프트웨어 에는 JMinHep라는 Java 라이브러리가 포함되어 있습니다. "데이터 클러스터링"섹션의 매뉴얼을 참조하십시오. XY에서 다차원 데이터 포인트를 시각화하고 여러 데이터 클러스터링 알고리즘을 실행할 수있는 GUI를 제공합니다.