A, B, C, D, E의 5 가지 기능으로 구성된 데이터 집합이 있습니다. 모두 숫자 값입니다. 밀도 기반 클러스터링을 수행하는 대신 의사 결정 트리와 같은 방식으로 데이터를 클러스터링하는 것이 좋습니다.
내가 의미하는 접근 방식은 다음과 같습니다.
알고리즘은 특징 C에 기초하여 데이터를 X 초기 클러스터로 분할 할 수있다. 즉, X 클러스터는 작은 C, 중간 C, 큰 C 및 매우 큰 C 값 등을 가질 수있다. 다음으로, 각각의 X 클러스터 노드 하에서, 알고리즘은 추가로 분할한다 특징 A에 기초하여 데이터를 Y 클러스터로. 알고리즘은 모든 특징이 사용될 때까지 계속된다.
위에서 설명한 알고리즘은 의사 결정 트리 알고리즘과 같습니다. 그러나 감독 분류 대신 감독되지 않은 클러스터링에 필요합니다.
내 질문은 다음과 같습니다.
- 그러한 알고리즘이 이미 존재합니까? 이러한 알고리즘의 올바른 이름은 무엇입니까
- 이런 종류의 알고리즘을 구현하는 R / python 패키지 / 라이브러리가 있습니까?
CHAID
예를 들어 나무를 가져 가십시오 . 종속 변수를 선택해야합니다. 알고리즘은 A와 가장 관련이있는 변수를 B, C, D, E 중에서 선택하고 해당 변수 (예 : 예측 변수 D)를 둘 이상의 범주로 "최적화"합니다. (분류 된 변수 D와 변수 A 사이에서 최대화됩니다. 예를 들어, 3 개의 그룹 D1, D2, D3을 남겼습니다. 그런 다음 D의 각 범주 (그룹) 내에서 동일한 절차를 반복하고 B, C 중 가장 좋은 예측 변수 , E가 그것을 비닝에서 찾았다되는 등 무엇. 정확히 여기에 적합하지 않은?
But I need it for unsupervised clustering, instead of supervised classification
이 핵심 문구만으로는 너무 짧으며 원하는 것을 명확하게 설명하지 않습니다. 그 위에서 당신은 의사 결정 트리 인 것처럼 보이는 것을 설명했습니다. 원하는 알고에 대해 비슷한 구절을 줄 수 있습니까?