클러스터링 알고리즘의 속성을 보여주기 위해 2D 인공 데이터를 찾고


9

다른 분포와 형태에 따라 2 차원 데이터 포인트 (각 데이터 포인트는 두 개의 값 (x, y)로 구성된 벡터)의 데이터 세트를 찾고 있습니다. 그러한 데이터를 생성하는 코드도 도움이 될 것입니다. 그것들을 사용하여 일부 클러스터링 알고리즘의 성능을 플롯 / 시각화하고 싶습니다. 여기 몇 가지 예가 있어요.


나는 cw에 투표;)
steffen

특정 데이터 세트의 라인에서 비슷한 질문이 여기에 폐쇄되었습니다 stats.stackexchange.com/questions/38928/...
영구차

SPSS의 경우 클러스터 생성 매크로를 작성했습니다 (페이지를 방문하여 "클러스터 생성"참조). 그러나 링이나 나선과 같은 가혹한 모양을 생성하지는 않습니다.
ttnphns

답변:


11

R 에는 많은 데이터 세트가 포함되어 있으며 몇 줄의 코드로 인용 한 대부분의 예제를 재현하는 것이 큰 도움이되지 않는 것 같습니다. mlbench 패키지, 특히로 시작하는 합성 데이터 세트가 유용 할 수도 있습니다 mlbench.*. 일부 그림이 아래에 나와 있습니다.

여기에 이미지 설명을 입력하십시오

CRAN 의 클러스터 작업보기를 보면 추가 예제가 있습니다. 예를 들어, fpc 패키지에는 "얼굴 모양"클러스터 벤치 마크 데이터 세트 ( rFace)를 위한 내장 생성기가 있습니다.

여기에 이미지 설명을 입력하십시오

scikit-learn으로 클러스터링을위한 흥미로운 벤치 마크 테스트 및 데이터 세트를 찾을 수있는 Python에도 비슷한 고려 사항이 적용됩니다 .

UCI Machine Learning Repository는 많은 데이터 세트 를 호스팅 하지만 선택한 언어로 데이터를 직접 시뮬레이션하는 것이 좋습니다.



2

완구 클러스터링 벤치 마크 에는 ARFF 형식의 다양한 데이터 세트 (CSV로 쉽게 변환 할 수 있음)가 포함되어 있으며 대부분 기본 정보 레이블이 있습니다. 벤치 마크는 클러스터링 알고리즘의 원하는 기본 속성을 확인해야합니다. 대부분의 데이터 세트는 다음과 같은 클러스터링 용지에서 제공됩니다.

  • BIRCH -Zhang, Tian, ​​Raghu Ramakrishnan 및 Miron Livny. "BIRCH : 대용량 데이터베이스를위한 효율적인 데이터 클러스터링 방법." ACM SIGMOD 기록. Vol. 25. 2 번. ACM, 1996.
  • 치료 -Guha, Sudipto, Rajeev Rastogi 및 Kyuseok Shim. "CURE : 대규모 데이터베이스를위한 효율적인 클러스터링 알고리즘" ACM SIGMOD 기록. Vol. 27. 2 번. ACM, 1998.
  • 카멜레온 -Karypis, George, Eui-Hong Hong 및 Vipin Kumar. "카멜레온 : 동적 모델링을 사용한 계층 적 클러스터링." 컴퓨터 32.8 (1999) : 68-75.
  • 기본 클러스터링 문제 모음 -Ultsch, A .: SOM을 사용한 클러스터링 : U * C, In Proc. 자기 조직지도에 관한 워크숍, 프랑스 파리, (2005), 75-82 페이지
  • MOCK-Handl, Julia 및 Joshua Knowles. "다목적 클러스터링에 대한 혁신적인 접근 방식." 진화 계산, 11.1 (2007)의 IEEE 트랜잭션 : 56-76.
  • 강력한 경로 기반 스펙트럼 클러스터링 -Chang, Hong 및 Dit-Yan Yeung. "강력한 경로 기반 스펙트럼 클러스터링." 패턴 인식 41.1 (2008) : 191-203.

카피 시스 데이터 음핵 데이터


1

ELKI 에는 몇 가지 데이터 세트가 포함되어 있습니다 (단위 테스트도 확인하십시오. 여기에는 매개 변수 설정과 함께 웹 사이트에있는 것보다 많은 것이 포함되어 있습니다).

또한 상당히 유연한 데이터 생성기가 포함되어 있습니다.


1

다음 은 사용자 정의 가능한 클러스터 생성기입니다. 특정 클래스의 데이터 세트 만 다루지 만 클러스터 알고리즘 조사에 반드시 사용될 수 있습니다.

다음은 생성 할 수있는 클러스터 종류의 예입니다.

http://i.stack.imgur.com/vrCG5.png

클러스터 소속은 텍스트 파일로 저장됩니다. 코드는 MIT 라이센스에 따라 오픈 소스입니다.


1

Matlab 스크립트 는 클러스터링을위한 2D 데이터를 생성합니다. 생성 된 데이터가 사용자 요구 사항 내에 있도록 여러 매개 변수를 승인합니다.


0

Fisher의 Iris 데이터에 대해 아무도 언급하지 않았다고 믿을 수 없습니다.

나는 홍채 데이터를 예로 사용 하지 않는 클러스터링 기술을 보지 못했다고 생각 합니다.

r에 "iris"를 입력하면 데이터에 액세스 할 수 있습니다.

다음은 멋진 아이리스 플롯의 예입니다. http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.