MMD에 대한 개요를 약간 더 제공하는 것이 도움이 될 수 있습니다.
일반적으로 MMD는 분포 간의 거리 를 피처의 평균 임베딩 간의 거리로 나타내는 아이디어로 정의됩니다 . 즉, 세트 대해 와 분포가 있다고 가정하십시오 . MMD는 기능 맵 의해 정의됩니다. 여기서 는 재생 커널 Hilbert 공간입니다. 일반적으로 MMD는
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
예를 들어, 및 있습니다. 이 경우 :
MMD는 두 분포의 평균 사이의 거리입니다. 이와 같은 분포는 분산이나 다른 방식으로 다를 수 있지만 평균과 일치합니다.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
귀하의 경우는 약간 다릅니다 : 우리는 및 이며 . 여기서 는 행렬입니다. 따라서
이 MMD는 서로 다른 두 평균의 투영 값의 차이입니다. 경우 또는 사상 , 그렇지 가역 아니다X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ 이전 배포판보다 일부 배포판을 구분하지 않습니다.
더 강한 거리를 만들 수도 있습니다. 예를 들어, 이고 를 사용하는 경우 MMD는 , 평균이 다른 분포뿐만 아니라 분산도 다른 분포를 구별 할 수 있습니다.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
그리고 가 일반적인 재생 커널 Hilbert 공간에 매핑되면 커널 트릭 을 적용 하여 MMD를 계산할 수 있으며 가우시안 커널을 포함한 많은 커널이 MMD로 이어진다는 것이 밝혀졌습니다 분포 만 같으면 0이됩니다.φ
즉, 보내는 하면 얻을
. 샘플로 직접 추정 할 수 있습니다.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
업데이트 : 여기에 이름의 "최대 값"이 나오는 곳이 있습니다.
기능 맵 는 재생 커널 Hilbert 공간에 매핑됩니다. 이들의 공간이다 기능 및 키 특성 (이라는 충족 재생 속성 ) 임의 대해 .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
가장 간단한 예에서, 인 에서는 각 를 일부 해당하는 함수 로 입니다. 그런 다음 재생 속성 이 의미가 있습니다.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
가우시안 커널과 같이보다 복잡한 설정에서 는 훨씬 더 복잡한 기능이지만 재생 속성은 여전히 유지됩니다.f
이제 MMD의 대체 특성을 제공 할 수 있습니다.
두 번째 줄은 힐버트 공간의 규범에 대한 일반적인 사실입니다.MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ 는 의해 달성됩니다 . 네 번째는 Bochner 통합으로 알려진 기술 조건에 따라 다르지만, 예를 들어 경계 커널 또는 경계가 지원되는 배포의 경우에 해당됩니다. 그런 다음 재생산 속성을 사용합니다.f=g/∥g∥
이 마지막 줄은 이것이 "최대 평균 불일치"라고하는 이유 입니다. 이는 두 분포 사이의 평균 차이 의 단위 공에서 테스트에 대한 최대 함수 입니다 .fH