L2 의 의견에서 제안한 거리. 이것은
참고 해당 섹션 8.1.8에서와 같이, 예를 들면 매트릭스 요리 책 :
이므로 시간 내에 쉽게 평가할 수 있습니다 .L2(P,Q)2=∫(p(x)−q(x))2dx=∫(∑iαipi(x)−∑jβjqj(x))2dx=∑i,i′αiαi′∫pi(x)pi′(x)dx+∑j,j′βjβj′∫qj(x)qj′(x)dx−2∑i,jαiβj∫pi(x)qj(x)dx.
∫N(x;μ,Σ)N(x;μ′,Σ′)dx=N(μ;μ′,Σ+Σ′)
O(mn)
가우스 RBF 커널과의 최대 평균 불일치 (MMD). 이것은 통계 커뮤니티에서 아직 잘 알려져 있지 않은 시원한 거리이며 정의하는 데 약간의 수학이 필요합니다.
시키는
힐베르트 공간 정의 등을 재생 커널 힐베르트 공간에 대응하는 : .k(x,y):=exp(−12σ2∥x−y∥2),
Hkk(x,y)=⟨φ(x),φ(y)⟩H
정의 평균지도 커널 로서
K(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
그러면 MMD는
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
우리의 혼합물 와 경우
및 및 와 유사합니다 .PQK(P,Q)=∑i,jαiβjK(Pi,Qj)
K(P,P)K(Q,Q)
이것은 대와 유사한 기법을 사용하여 밝혀 것을 이다
L2K(N(μ,Σ),N(μ′,Σ′))(2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
마찬가지로 상기의 배수 명확 수렴 거리. 그러나 일반적으로 데이터 변형의 규모에 따라 다른 를 사용하려고합니다 .σ→0L2σ
닫힌 형태는 MMD의 다항식 커널 에도 사용할 수 있습니다 . 보다k
Muandet, Fukumizu, Dinuzzo 및 Schölkopf (2012). 지지대 측정기를 통한 분포로부터 학습. 신경 정보 처리 시스템의 발전 ( 공식 버전 ). arXiv : 1202.6504 .
이 거리의 많은 좋은 속성을 보려면
Sriperumbudur, Gretton, Fukumizu, Schölkopf 및 Lanckriet (2010). 확률 측정에 대한 힐버트 공간 임베딩 및 메트릭 기계 학습 연구 저널, 11, 1517–1561 . arXiv : 0907.5309 .