군집 솔루션을 평가하기위한 두 가우스 혼합 간의 거리


11

다른 클러스터링 방법을 비교하기 위해 빠른 시뮬레이션을 실행 중이며 현재 클러스터 솔루션을 평가하려고 시도 중입니다.

다양한 유효성 검사 메트릭 ( R의 cluster.stats () 에서 발견 됨)에 대해 알고 있지만 예상 클러스터 수가 실제 클러스터 수와 같으면 가장 잘 사용된다고 가정합니다. 원래 시뮬레이션에서 올바른 수의 클러스터를 지정하지 않은 경우 클러스터링 솔루션의 성능을 측정하는 기능을 유지하려고합니다 (즉, 4 개의 클러스터를 갖도록 시뮬레이션 된 3 개의 클러스터 솔루션 모델 데이터가 얼마나 잘 수행되는지) 해결책). 참고로 클러스터는 동일한 공분산 행렬을 갖도록 시뮬레이션됩니다.

가우시안의 두 혼합물 간의 KL 확산은 구현하는 데 유용하지만 폐쇄 형 솔루션은 존재하지 않으며 ( Hershey and Olson (2007) ) Monte Carlo 시뮬레이션 구현은 계산 비용이 많이 들기 시작했습니다.

구현하기 쉬운 다른 솔루션이 있습니까 (근사치조차도)?


두 가우스 혼합 간의 L2 거리는 닫힌 형태로 제공됩니다. 이것을 사용하면 모든 준비가 완료됩니다.

나는 당신이 어떻게 할 것인지 모르겠지만 좋은 생각처럼 들리지 않습니다. 혼합물을 취하고 성분을 퍼 미트하고 (p (x)로 변경하지 마십시오) L2 거리는 무엇이든 될 수 있습니다. 또한 공분산 행렬에서는 L2 거리가 좋지 않습니다.
bayerj

보류 된 테스트 데이터 세트의 사후 예측 확률. k에 대한 사전 요구 사항이 필요하다고 생각합니다.
추측

첫 번째 링크가 끊어짐
ttnphns 2016 년

답변:


6

에 두 개의 가우스 혼합이 있다고 가정합니다 . 밀도 및 을 각각 하고 , 구성 요소 , 의 밀도를 각각 나타냅니다 .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

다음 거리는 닫힌 형태로 제공됩니다.

  • L2 의 의견에서 제안한 거리. 이것은 참고 해당 섹션 8.1.8에서와 같이, 예를 들면 매트릭스 요리 책 : 이므로 시간 내에 쉽게 평가할 수 있습니다 .

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • 가우스 RBF 커널과의 최대 평균 불일치 (MMD). 이것은 통계 커뮤니티에서 아직 잘 알려져 있지 않은 시원한 거리이며 정의하는 데 약간의 수학이 필요합니다.

    시키는 힐베르트 공간 정의 등을 재생 커널 힐베르트 공간에 대응하는 : .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    정의 평균지도 커널 로서

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    그러면 MMD는

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    우리의 혼합물 와 경우 및 및 와 유사합니다 .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    이것은 대와 유사한 기법을 사용하여 밝혀 것을 이다 L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    마찬가지로 상기의 배수 명확 수렴 거리. 그러나 일반적으로 데이터 변형의 규모에 따라 다른 를 사용하려고합니다 .σ0L2σ

    닫힌 형태는 MMD의 다항식 커널 에도 사용할 수 있습니다 . 보다k

    Muandet, Fukumizu, Dinuzzo 및 Schölkopf (2012). 지지대 측정기를 통한 분포로부터 학습. 신경 정보 처리 시스템의 발전 ( 공식 버전 ). arXiv : 1202.6504 .

    이 거리의 많은 좋은 속성을 보려면

    Sriperumbudur, Gretton, Fukumizu, Schölkopf 및 Lanckriet (2010). 확률 측정에 대한 힐버트 공간 임베딩 및 메트릭 기계 학습 연구 저널, 11, 1517–1561 . arXiv : 0907.5309 .

  • 이차 Jensen-Rényi 분기. Rényi- 엔트로피는 의 한계 는 Shannon 엔트로피입니다. Jensen-Rényi 분기는 여기서 는 와 사이의 동일한 혼합물을 나타냅니다 . 그것은 그 밝혀 때 언제 와 (여기로) 가우시안 혼합물이며, 당신이 닫힌 형태 계산할 수 . 이것은에 의해 이루어졌다α

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer 및 Rangarajan (2009). 가우시안과 그룹-와이즈 모양 등록을위한 애플리케이션의 혼합을위한 폐쇄 형 Jensen-Renyi 분기. Med Image Comput Comput Assist Interv., 12 (1), 648–655. ( 무료 출판 버전 )


0

당신의 클러스터가 실제로 있다면 하지 가우시안 혼합하지만, 임의의 모양, 결과는 실제로 훨씬 더 좋을 수는 훨씬 더 클러스터를 생성 할 때, 다시 나중에 일부를 병합합니다.

많은 경우에, k는 임의로 높은 데이터를 선택합니다 (예 : 큰 데이터 세트의 경우 1000). 특히 모델에 관심이 없지만 벡터 양자화를 통해 데이터 세트의 복잡성을 줄이려고 할 때 특히 그렇습니다.


가우스 혼합에서 클러스터가 그려 지도록 시뮬레이션했기 때문에 가정이 유효하다고 생각합니다. 여기서 목표는 복잡성을 줄이거 나 k를 선택하기위한 결정 기준을 제시하는 것이 아니라 k가 실제로 부정확 할 때 k 클러스터가 데이터를 얼마나 잘 모델링하는지 비교하는 것입니다. 일부 잘못된 선택은 다른 것보다 데이터를 더 잘 모델링 할 수 있으며 KL 분기와 같은 일부 계산 으로이 정도의 부적합을 정량화하려고하지만 가우시안 혼합에 대해 구현하기가 쉽습니다.
dmartin

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.