불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링


33

10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다.

이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 없습니다 (사실, 실제로 정의 된 것은 아닙니다).

내 질문은 :

  • 불연속 변수와 연속 변수를 모두 포함하는이 데이터 세트에 공통 클러스터링 알고리즘 (예 : K-Means 및 Gaussian Mixture (GMM))을 적용하는 것이 좋습니다?

그렇지 않은 경우 :

  • 불연속 변수를 제거하고 연속 변수에만 초점을 맞춰야합니까?
  • 연속적인 것을 더 잘 구별하고 이산 데이터에 클러스터링 알고리즘을 사용해야합니까?

3
좋은 거리 측정 값을 찾아야합니다 (종종 클러스터링에서 가장 어려운 작업). 데이터 항목의 유사도를 정확하고 정확하게 설명하는 거리 측정 값을 찾을 수 있으면 아무런 문제가 없습니다.
Andrew

이 두 범주 형 변수에 대해 말하면 사실상 변수를 서수로 설명했습니다. 이제 나머지 2 개의 "기본"변수는 어떻습니까? 그것들은 그것들과 어떻게 다릅니 까?
ttnphns 2014 년

그것들은 또한 이산 적이지만 둘 다 의미있는 거리 기능을 가지고 있습니다.
ptikobj

답변:


14

7

나는 과거에 이런 종류의 문제를 처리해야했고, 두 가지 흥미로운 접근법이있을 수 있다고 생각합니다.

  • 연속 : 일련의 정수로 기호 속성을 변환합니다. 이 작업을 수행하는 방법에는 여러 가지가 있으며 모두이 백서 에서 설명 합니다 . NBF, VDM 및 MDV 알고리즘을 시도 할 수 있습니다.

  • 이산화 : 연속 속성을 기호 값으로 변환합니다. 다시 말하지만, 많은 알고리즘과 이에 대한 좋은 강의 가이 기사 가 될 것 입니다. 가장 일반적으로 사용되는 방법은 Holte의 1R이지만, 가장 확실한 방법은 EWD, EFD, ID, LD 또는 NDD와 같은 알고리즘에 대한 ROC 곡선을 보는 것입니다.

동일한 공간에 모든 기능이 있으면 일반적인 클러스터링 문제가됩니다.

연속화 또는 불연속 화 중에서 선택하는 것은 데이터 세트와 기능의 모양에 따라 다르므로 말하기가 어렵지만 해당 주제에 대해 제공 한 기사를 읽는 것이 좋습니다.


4

K- 평균은 의미 (무의미한)를 계산하기 때문에 분명히 의미가 없습니다. GMM도 마찬가지입니다.

DBSCAN과 같은 적절한 거리 함수를 사용하여 거리 기반 클러스터링 알고리즘을 시도 할 수 있습니다.

주요 도전은 거리 기능을 찾는 것입니다!

k-means에 다른 거리 함수를 넣을 수는 있지만 여전히 의미가없는 평균을 계산합니다 (이산 값에 대한 거리 함수로 혼동 될 수 있음).

어쨌든 먼저 "유사한"이 무엇인지 정의하는 데 중점을 둡니다 . 그런 다음 비슷한 정의를 사용하여 클러스터하십시오!


2

크기의 거리 매트릭스로 작업하는 것이 편한 경우 에도 num_of_samples x num_of_samples사용할 수 있습니다 random forests.

라는 제목의 참조 용지를 보려면 여기 를 클릭 하십시오Unsupervised learning with random forest predictors .

아이디어는 shuffling원래 데이터 세트의 값 으로 합성 데이터 세트를 작성하고 둘을 분리하기 위해 분류기를 훈련시키는 것입니다. 분류하는 동안 inter-sample distance matrix선호하는 클러스터링 알고리즘을 테스트 할 수있는를 얻을 수 있습니다.


-2

혼합 접근법 채택 : 1) 분류 기술 (C4.5 결정 트리)을 사용하여 데이터 세트를 2 개의 클래스로 분류하십시오. 2) 완료되면 범주 형 변수를 그대로두고 클러스터링을위한 연속 변수를 진행하십시오.


나는 당신의 제안을 따를 수 없었습니다. 어느 두 수업이 어떻게 도움이 되나요?
KarthikS

Swapnil Soni가 말해야 할 것은 분류 기술을 사용하여 두 클래스로 분류한다는 것입니다. 그런 다음 분류 출력 레이블을 이진 변수로 사용할 수 있습니다. 따라서 모든 범주 형 변수 대신 표시 이진 변수를 얻은 다음 클러스터링 알고리즘이 데이터를 계속 진행할 수 있습니다 (모든 연속 + 1 이진 변수로 구성). 그래도 내 해석은 틀릴 수 있습니다.
Tusharshar

완벽하게 괜찮아!
Swapnil Soni
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.