최대 가능성 추정기-다변량 가우스


20

문맥

다변량 가우스는 머신 러닝에서 자주 나타나며 다음 결과는 많은 ML 서적과 과정에서 파생되지 않고 사용됩니다.

행렬의 형태로 주어진 데이터 치수의 , 우리는 데이터를 따른다고 가정하면 -variate 가우시안 변수와 분포 평균 ( ) 및 공분산 행렬 ( ) 최대 가능성 추정치 는 다음과 같이 제공됩니다.Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

나는 다변량 가우시안에 대한 지식이 많은 ML 과정의 전제 조건이라는 것을 이해하지만, 많은자가 학습자가 통계에 대해 튀는 느낌이들 때 한 번에 자체 답변으로 전체 파생을 얻는 것이 도움이 될 것입니다. stackexchange 및 math.stackexchange 웹 사이트에서 답변을 찾습니다.


질문

다변량 가우스에 대한 최대 우도 추정값의 전체 도출은 무엇입니까


예 :

선형 판별 분석에 강의 노트 (11 페이지), 또는 이러한 것들 결과의 활용 및 사전 지식을 가정합니다.

부분적으로 답변되거나 닫힌 게시물도 있습니다.

답변:


24

최대 가능성 추정값 도출

우리가 가지고 있다고 가정 확률 벡터의 크기의 각각의 : 각 랜덤 벡터는 여기서 일 수 변수에 대한 관측치 (데이터 포인트)로 해석됩니다 . 각 가 다변량 가우스 벡터로 iid 인 경우 :mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

매개 변수 를 알 수없는 경우 추정치를 얻기 위해 최대 우도 방법을 사용하고 로그 우도 함수를 최대화 할 수 있습니다.μ,Σ

랜덤 벡터의 독립성에 의해 데이터 밀도는 개별 밀도의 곱임 즉, 입니다. 대수를 취하면 로그 우도 기능이 제공됩니다.m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

파생μ^

대한 미분을 취하고 0과 동일하게하기 위해 다음 행렬 미적분 동일성을 사용합니다.μ

wTAww=2Aw 경우 에 의존하지 않는 및 대칭이다.wAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

종종 샘플 평균 벡터 라고합니다 .

파생Σ^

공분산 행렬에 대한 MLE를 도출하려면 더 많은 작업과 다음 선형 대수 및 미적분 특성을 사용해야합니다.

  • 트레이스는 행렬 곱의 순환 순열에서 변하지 않습니다.tr[ACB]=tr[CAB]=tr[BCA]
  • 이후 스칼라, 우리는 추적을 동일한 값을 얻을 수있다 :xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

이러한 속성을 결합하면 계산할 수 있습니다

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

이것은 벡터 의 외부 곱입니다 .x

이제 로그 우도 함수를 다시 작성하고 미분 wrt 계산할 수 있습니다 (주 는 일정합니다)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

0으로 동일하고 대한 해결Σ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

출처


대체 증거,보다 간결한 형태 또는 직관적 인 해석을 환영합니다!
Xavier Bourret Sicotte

대한 파생 에서 왜 가 양의 한정이어야합니까? 충분히 보이는가 반전인가? 가역 행렬 용 , 에만 ? μΣΣAAx=0x=0
Tom Bennett

명확히하기 위해, 는 유한 대각 및 비대 각 성분을 가질 수 있는 행렬입니다. 이 경우 이러한 벡터는 어떤 의미에서 독립적입니까? 또한, 조인트 확률 함수가 가능성과 같은 이유는 무엇입니까? 조인트 밀도 가 이전 곱셈과 같은 가능성, 즉 과 같지 않아야 합니까? Σm×mf(x,y)f(x|y)f(y)
Mathews24

1
@TomBennett 시그마 행렬은 정의에 따라 양의 정의 입니다. 증거는 stats.stackexchange.com/questions/52976/… 을 참조하십시오 . 행렬 미적분 동일성을 위해서는 행렬이 양의 한정이 아닌 대칭이어야합니다. 그러나 양의 명확한 행렬은 항상 대칭이므로 작동합니다.
Xavier Bourret Sicotte

1
실제로 그렇습니다. 관찰 간의 독립성은 가능성을 얻을 수 있습니다. 표현이 불분명 할 수 있습니다. 이것은 가능성의 다변량 버전입니다. 사전에 관계없이 여전히 무관
자비에 BOURRET Sicotte

5

위한 또 다른 증거 에 대해 미분을 취 직접 :Σ^Σ

위와 같이 로그 우도를 : 여기서 와 의 순환 및 선형 속성을 사용했습니다 . 를 계산하려면 먼저

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
위의 네 번째 속성에 의한 . 두 번째 항의 미분을 취하려면 ( 매트릭스 요리 책 , 방정식 63에서). 이것을 적용 그 우리 구 와 는 모두 대칭 이므로 그때
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
이것을 0으로 설정하고 재 배열하면
Σ^=1mSμ.

이 방법은 대한 파생물을 사용하는 표준 방법보다 더 많은 작업이며 더 복잡한 추적 ID가 필요합니다. 현재 보다 을 사용하는 것이 훨씬 어려운 수정 된 가능성 함수의 파생물을 가져와야하기 때문에 유용하다는 것을 알았습니다 .Λ=Σ1/Σ1/Σ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.