비거리 기반 클러스터링 알고리즘이 있습니까?


14

K- 평균 및 기타 관련 알고리즘의 경우 군집화는 점 사이의 거리 계산에 기초한 것으로 보입니다. 그것없이 작동하는 것이 있습니까?


2
점의 유사성 또는 "근접성"을 정량화 할 방법없이 "클러스터링 (clustering)"이란 무엇을 의미합니까?
whuber

2
@Tim의 답변은 매우 좋습니다. 도움이 되었으면 찬성 투표 및 / 또는 수락 을 고려할 수 있습니다 . '감사합니다'라고 말하는 좋은 방법입니다. 그의 아이디어를 확장하면서 잠재 분류 분석이 있으며, 이는 범주 형 데이터에 유사한 접근 방식을 적용합니다. FMM에 대한 비모수 적 접근 방식은 다변량 커널 밀도 추정치의 높이를 통해 사용할 수 있습니다. 자세한 내용은 비모수 밀도 추정을 통한 클러스터링 : R 패키지 pdfCluster ( pdf )를 참조하십시오.
gung-복직 모니카

답변:


25

그러한 방법의 한 예는 클러스터링에 사용되는 유한 혼합물 모델 (예 : 여기 또는 여기 )입니다. FMM에서는 변수 의 분포 ( ) 를 분포 ( ) 의 혼합으로 간주합니다 .X K F 1 , . . . , f kfXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

여기서 파라미터들의 벡터이다 및 의 비율 인 혼합물 중의 번째 분포 '와 (a 파라미터 또는 분포 의 파라미터) .θ = ( π ' , θ ' 1 , . . . , θ ' K ) ' π Kϑϑ=(π,ϑ1,...,ϑk)πkϑ k f kkϑkfk

이산 데이터의 구체적인 사례는 다음과 같이 정의 된 잠재 클래스 분석 (예 : 여기 )입니다.

P(x,k)=P(k)P(x|k)

여기서 는 잠재 클래스 를 관찰 할 확률 (즉, )이고, 는 값 을 관찰 할 확률이고 , 는 가 클래스 에있을 확률입니다 .(K) π (K) P ( X ) (X) P ( X | K ) X (K)P(k)kπkP(x)xP(x|k)xk

일반적으로 FMM 및 LCA EM 알고리즘 모두 추정에 사용되지만 베이지안 접근법도 가능하지만 모델 식별 및 레이블 전환과 같은 문제 때문에 약간 더 까다 롭습니다 (예 : Xi'an 's blog ).

따라서 거리 측정이 아니라 데이터의 구조 (분포)를 정의하는 통계 모델이 있습니다. 이 방법의 다른 이름으로 인해 "모델 기반 클러스터링"이 있습니다.

FMM에 대한 두 권의 책을 확인하십시오.

FMM을 사용하는 가장 인기있는 클러스터링 패키지 중 하나는 R구현 된 것 입니다 mclust( 여기 또는 여기에서 확인 ) . 그러나 더 복잡한 FMM도 가능 합니다 . 패키지 및 설명서를 확인하십시오 . LCA의 경우 R poLCA 패키지가 있습니다.flexmix


다른 사용 사례가 무엇인지 잘 알고 있습니까?
shadowtalker

"메도 이드 주변을 분할하는 대신 이것을 언제 사용해야합니까?"와 같이 어쨌든 아주 좋은 답변
shadowtalker

1
@caveman은 단지 표기법이라는 것에 주목합니다. 그것은 벡터로 구성된 벡터입니다.
Tim

1
@caveman에는 혼합물에있는 다른 분포 f_k가 있으며 분포 에는 고유 한 매개 변수가 있습니다 (따라서 매개 변수 벡터가 있습니다). f를 1 , . . . , f kk f1,...,fk
Tim

1
@caveman 가장 일반적인 경우는 당신이 가지고 있다는 것입니다 다른 수단 및 SD의와 예를 들어 정규 분포를. 그러나 그것들은 다를 수 있습니다. cran.r-project.org/web/packages/flexmix/vignettes/의 3.1 예제에서 혼합 된 두 가지 회귀 모델을 보여줍니다. k
Tim

7

많은 그리드 기반 클러스터링 접근 방식이 있습니다. 거리를 계산하지 않기 때문에 종종 2 차 런타임이 생성됩니다. 대신 데이터를 분할하고 그리드 셀로 집계합니다. 그러나 이러한 접근 방식의 직관은 일반적으로 거리와 매우 밀접한 관련이 있습니다.

COOLCAT 및 STUCCO와 같은 범주 형 데이터에 대한 여러 클러스터링 알고리즘이 있습니다. 이러한 데이터에는 거리를 사용하기가 쉽지 않습니다 (원핫 인코딩은 해킹이며 특히 의미있는 거리를 생성하지 않습니다). 그러나 나는이 알고리즘을 사용하는 사람에 대해 들어 보지 못했습니다 ...

그래프에는 클러스터링 방식이 있습니다. 그러나 그것들은 크리크 또는 근거리 크리 칭 및 그래프 채색과 같은 고전적인 그래프 문제로 줄이거 나 거리 기반 클러스터링과 밀접한 관련이 있습니다 (가중 그래프가있는 경우).

DBSCAN과 같은 밀도 기반 클러스터링은 이름이 다르며 거리를 최소화하는 데 중점을 두지 않습니다. 그러나 "밀도"는 일반적으로 거리와 관련하여 지정되므로 기술적으로 이러한 알고리즘은 거리 기반 또는 그리드 기반입니다.

당신이 빠뜨린 질문의 중요한 부분 은 당신의 데이터무엇 입니까?


1
+1 : 클러스터링 알고리즘이 암시적인 (어쩌면) 일반화 된 "거리"또는 "유사성"을 사용하는 방법을 보여주고 많은 알고리즘에 대한 조사를 제공하면서 그렇게한다는 점에 감사합니다.
whuber

"거리 기반"에 따르면 그는 유사성 메트릭스를 의미하며, 여기에는 분산이 포함됩니다.
en1

1
분산이 유사성 메트릭 인 이유는 무엇입니까? 정사각형 유클리드 거리와 관련이 있습니다. 임의의 거리 s 와 같지 않습니다 .
종료-익명-무스


2

순전히 차별적 인 접근 방식은 Gomes et al .의 "정규화 된 정보 극대화" 입니다. 그것과 관련된 유사성 / 거리에 대한 개념은 없습니다.

아이디어는 점을 빈에 넣는 모델과 같은 로지스틱 회귀를 갖는 것입니다. 그러나 클래스 레이블의 로그 가능성을 최대화하도록 훈련시키는 대신 목적 함수는 포인트를 다른 클러스터에 넣는 기능입니다.

λ

비선형 클러스터링을위한 커널 메소드 나 신경망으로의 확장은 간단합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.