10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다.
이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 없습니다 (사실, 실제로 정의 된 것은 아닙니다).
내 질문은 :
- 불연속 변수와 연속 변수를 모두 포함하는이 데이터 세트에 공통 클러스터링 알고리즘 (예 : K-Means 및 Gaussian Mixture (GMM))을 적용하는 것이 좋습니다?
그렇지 않은 경우 :
- 불연속 변수를 제거하고 연속 변수에만 초점을 맞춰야합니까?
- 연속적인 것을 더 잘 구별하고 이산 데이터에 클러스터링 알고리즘을 사용해야합니까?