실제 데이터는 때때로 자연스러운 수의 클러스터를 갖습니다 (일부 매직 k보다 적은 수의 클러스터로 클러스터하려고하면 클러스터링 비용이 크게 증가합니다). 오늘 저는 Adam Meyerson 박사의 강의에 참석했으며 이러한 유형의 데이터를 "분리 가능한 데이터"라고했습니다.
K- 평균 이외의 데이터에서 자연 분리 성을 활용하는 클러스터링 알고리즘 (근사 또는 휴리스틱)을 사용할 수있는 일부 클러스터링 공식화는 무엇입니까?
실제 데이터는 때때로 자연스러운 수의 클러스터를 갖습니다 (일부 매직 k보다 적은 수의 클러스터로 클러스터하려고하면 클러스터링 비용이 크게 증가합니다). 오늘 저는 Adam Meyerson 박사의 강의에 참석했으며 이러한 유형의 데이터를 "분리 가능한 데이터"라고했습니다.
K- 평균 이외의 데이터에서 자연 분리 성을 활용하는 클러스터링 알고리즘 (근사 또는 휴리스틱)을 사용할 수있는 일부 클러스터링 공식화는 무엇입니까?
답변:
이러한 개념을 포착하려는 최근 모델 중 하나 는 Balcan, Blum 및 Gupta '09입니다. 데이터가 어떤 그런 경우 즉 것을 : 데이터 만족 특정 가정 할 때 그들은 다양한 클러스터링 목표에 대한 알고리즘을주고 클러스터링 목적을 위해 -approximation가 ε 최적의 클러스터링에 - 닫기, 그때 그들은 거의을 찾기위한 효율적인 알고리즘을 제공 할 수 있습니다 c 근사값 을 찾는 것이 NP-Hard 인 c 값에 대해서도 최적의 클러스터링 . 이것은 데이터가 어떻게 든 "좋음"또는 "분리 가능"하다는 가정입니다. Lipton은 이것에 대한 멋진 블로그 게시물 을 가지고 있습니다.
나는 초기 연구와 초기 관련 개념이 있다고 확신하지만 이것들은 귀하의 질문과 관련된 최근의 이론적 결과입니다.
Ostrovsky et al 의 저작 과 k-means의 동작에 대한 Arthur와 Vassilvitskii 의 연구 외에도 유클리드 k-median과 k- me 에 대한 이론적 연구가 있는데, 이는 아래의 클러스터링을위한 "선형"시간 알고리즘으로 이어진다 이들 제형. 후자의 작품에서 흥미로운 점은 분리 기능을 분석 도구로 사용하지만 데이터에는 필요하지 않다는 것입니다.