최대 평균 불일치 (거리 분포)


15

다른 분포를 따르는 두 개의 데이터 세트 (소스 및 대상 데이터)가 있습니다. 소스와 대상 데이터 사이의 한계 분포를 계산하기 위해 비모수 거리 분포 인 MMD를 사용하고 있습니다.

소스 데이터, Xs

대상 데이터, Xt

적응 매트릭스 A

* 투영 데이터, Zs = A '* Xs 및 Zt = A'Xt

* MMD => 거리 (P (Xs), P (Xt)) = | 평균 (A'Xs)-평균 (A ' Xt) |

즉, 원래 공간에서 소스와 대상 데이터 사이의 분포 거리는 포함 된 공간에서 투사 된 소스와 대상 데이터 사이의 거리와 같습니다.

MMD의 개념에 대한 질문이 있습니다.

MMD 공식에서, 잠복 공간에서 계산 거리를 갖는 이유는 원래 공간에서 분포의 거리를 측정 할 수 있습니까?

감사


당신은 실제로 아직 질문을하지 않았습니다.
whuber

답변:


44

MMD에 대한 개요를 약간 더 제공하는 것이 도움이 될 수 있습니다.

일반적으로 MMD는 분포 간의 거리 를 피처의 평균 임베딩 간의 거리로 나타내는 아이디어로 정의됩니다 . 즉, 세트 대해 와 분포가 있다고 가정하십시오 . MMD는 기능 맵 의해 정의됩니다. 여기서 는 재생 커널 Hilbert 공간입니다. 일반적으로 MMD는 PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

예를 들어, 및 있습니다. 이 경우 : MMD는 두 분포의 평균 사이의 거리입니다. 이와 같은 분포는 분산이나 다른 방식으로 다를 수 있지만 평균과 일치합니다.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

귀하의 경우는 약간 다릅니다 : 우리는 및 이며 . 여기서 는 행렬입니다. 따라서 이 MMD는 서로 다른 두 평균의 투영 값의 차이입니다. 경우 또는 사상 , 그렇지 가역 아니다X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA 이전 배포판보다 일부 배포판을 구분하지 않습니다.

더 강한 거리를 만들 수도 있습니다. 예를 들어, 이고 를 사용하는 경우 MMD는 , 평균이 다른 분포뿐만 아니라 분산도 다른 분포를 구별 할 수 있습니다.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

그리고 가 일반적인 재생 커널 Hilbert 공간에 매핑되면 커널 트릭 을 적용 하여 MMD를 계산할 수 있으며 가우시안 커널을 포함한 많은 커널이 MMD로 이어진다는 것이 밝혀졌습니다 분포 만 같으면 0이됩니다.φ

즉, 보내는 하면 얻을 . 샘플로 직접 추정 할 수 있습니다.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


업데이트 : 여기에 이름의 "최대 값"이 나오는 곳이 있습니다.

기능 맵 는 재생 커널 Hilbert 공간에 매핑됩니다. 이들의 공간이다 기능 및 키 특성 (이라는 충족 재생 속성 ) 임의 대해 .φ:XHf,φ(x)H=f(x)fH

가장 간단한 예에서, 인 에서는 각 를 일부 해당하는 함수 로 입니다. 그런 다음 재생 속성 이 의미가 있습니다.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

가우시안 커널과 같이보다 복잡한 설정에서 는 훨씬 더 복잡한 기능이지만 재생 속성은 여전히 ​​유지됩니다.f

이제 MMD의 대체 특성을 제공 할 수 있습니다. 두 번째 줄은 힐버트 공간의 규범에 대한 일반적인 사실입니다.

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g 는 의해 달성됩니다 . 네 번째는 Bochner 통합으로 알려진 기술 조건에 따라 다르지만, 예를 들어 경계 커널 또는 경계가 지원되는 배포의 경우에 해당됩니다. 그런 다음 재생산 속성을 사용합니다.f=g/g

이 마지막 줄은 이것이 "최대 평균 불일치"라고하는 이유 입니다. 이는 두 분포 사이의 평균 차이 의 단위 공에서 테스트에 대한 최대 함수 입니다 .fH


설명해 주셔서 감사합니다. 더 명확 해졌습니다. 그래도이 개념을 얻지 못했습니다. 처음에 "MMD는 분포 간의 거리를 피처의 평균 임베딩 간의 거리로 나타내는 아이디어로 정의됩니다." 이 아이디어가 왜 실현됩니까?
Mahsa

"MMD는 분포 간의 거리를 피처의 평균 임베딩 간의 거리로 나타내는 아이디어로 정의됩니다." 이 아이디어가 실현되는 이유는 RKHS 공간과 관련이 있습니까?
Mahsa

1
정의 일뿐입니다. 평균을 비교하여 분포를 비교할 수 있습니다. 또는 평균의 일부 변환을 비교하여 분포를 비교할 수 있습니다. 또는 그들의 평균과 분산을 비교함으로써; 또는 RKHS를 포함하여 다른 기능 맵의 평균을 비교합니다.
Dougal

답변 주셔서 감사합니다. RKHS 기능 맵에 대한 자세한 내용을 읽겠습니다. RKHS 기능 맵에서 MMD가 거리를 정의한 이유가 궁금합니다. MMD 거리 정의에서 RKHS의 이점은 무엇입니까?
Mahsa

여기서 설명은 "최대 평균 불일치"가 아닌 "평균 불일치"에 중점을 둡니다. 누구든지 "최대화"부분을 설명 할 수 있습니까?
Jiang Xiang

5

다음은 MMD를 해석 한 방법입니다. 모멘트가 비슷한 경우 두 분포가 비슷합니다. 커널을 적용하여 모든 순간 (첫 번째, 두 번째, 세 번째 등)이 계산되도록 변수를 변환 할 수 있습니다. 잠재 공간에서 순간 간의 차이를 계산하고 평균을 계산할 수 있습니다. 이를 통해 데이터 집합 간의 유사성 / 비 유사성을 측정 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.