다른 분포와 형태에 따라 2 차원 데이터 포인트 (각 데이터 포인트는 두 개의 값 (x, y)로 구성된 벡터)의 데이터 세트를 찾고 있습니다. 그러한 데이터를 생성하는 코드도 도움이 될 것입니다. 그것들을 사용하여 일부 클러스터링 알고리즘의 성능을 플롯 / 시각화하고 싶습니다. 여기 몇 가지 예가 있어요.
다른 분포와 형태에 따라 2 차원 데이터 포인트 (각 데이터 포인트는 두 개의 값 (x, y)로 구성된 벡터)의 데이터 세트를 찾고 있습니다. 그러한 데이터를 생성하는 코드도 도움이 될 것입니다. 그것들을 사용하여 일부 클러스터링 알고리즘의 성능을 플롯 / 시각화하고 싶습니다. 여기 몇 가지 예가 있어요.
답변:
R 에는 많은 데이터 세트가 포함되어 있으며 몇 줄의 코드로 인용 한 대부분의 예제를 재현하는 것이 큰 도움이되지 않는 것 같습니다. mlbench 패키지, 특히로 시작하는 합성 데이터 세트가 유용 할 수도 있습니다 mlbench.*
. 일부 그림이 아래에 나와 있습니다.
CRAN 의 클러스터 작업보기를 보면 추가 예제가 있습니다. 예를 들어, fpc 패키지에는 "얼굴 모양"클러스터 벤치 마크 데이터 세트 ( rFace
)를 위한 내장 생성기가 있습니다.
scikit-learn으로 클러스터링을위한 흥미로운 벤치 마크 테스트 및 데이터 세트를 찾을 수있는 Python에도 비슷한 고려 사항이 적용됩니다 .
UCI Machine Learning Repository는 많은 데이터 세트 를 호스팅 하지만 선택한 언어로 데이터를 직접 시뮬레이션하는 것이 좋습니다.
이 작업을 위해 정확하게 설계된 일부 데이터 세트는 다음과 같습니다.
이 완구 클러스터링 벤치 마크 에는 ARFF 형식의 다양한 데이터 세트 (CSV로 쉽게 변환 할 수 있음)가 포함되어 있으며 대부분 기본 정보 레이블이 있습니다. 벤치 마크는 클러스터링 알고리즘의 원하는 기본 속성을 확인해야합니다. 대부분의 데이터 세트는 다음과 같은 클러스터링 용지에서 제공됩니다.
다음 은 사용자 정의 가능한 클러스터 생성기입니다. 특정 클래스의 데이터 세트 만 다루지 만 클러스터 알고리즘 조사에 반드시 사용될 수 있습니다.
다음은 생성 할 수있는 클러스터 종류의 예입니다.
클러스터 소속은 텍스트 파일로 저장됩니다. 코드는 MIT 라이센스에 따라 오픈 소스입니다.
이 Matlab 스크립트 는 클러스터링을위한 2D 데이터를 생성합니다. 생성 된 데이터가 사용자 요구 사항 내에 있도록 여러 매개 변수를 승인합니다.
Fisher의 Iris 데이터에 대해 아무도 언급하지 않았다고 믿을 수 없습니다.
나는 홍채 데이터를 예로 사용 하지 않는 클러스터링 기술을 보지 못했다고 생각 합니다.
r에 "iris"를 입력하면 데이터에 액세스 할 수 있습니다.
다음은 멋진 아이리스 플롯의 예입니다. http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/