최대 가능성 추정값 도출
우리가 가지고 있다고 가정 확률 벡터의 크기의 각각의 : 각 랜덤 벡터는 여기서 일 수 변수에 대한 관측치 (데이터 포인트)로 해석됩니다 . 각 가 다변량 가우스 벡터로 iid 인 경우 :mpX(1),X(2),...,X(m)p엑스( 나는 )
엑스( 나는 )~ N피( μ , Σ )
매개 변수 를 알 수없는 경우 추정치를 얻기 위해 최대 우도 방법을 사용하고 로그 우도 함수를 최대화 할 수 있습니다.μ , Σ
랜덤 벡터의 독립성에 의해 데이터 밀도는 개별 밀도의 곱임 즉, 입니다. 대수를 취하면 로그 우도 기능이 제공됩니다.∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l ( μ , Σ | x( 나는 ))= 로그∏나는 = 1미디엄에프엑스( 나는 )(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
파생μ^
대한 미분을 취하고 0과 동일하게하기 위해 다음 행렬 미적분 동일성을 사용합니다.μ
∂wTAw∂w=2Aw 경우
에 의존하지 않는 및 대칭이다.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
종종 샘플 평균 벡터 라고합니다 .
파생Σ^
공분산 행렬에 대한 MLE를 도출하려면 더 많은 작업과 다음 선형 대수 및 미적분 특성을 사용해야합니다.
- 트레이스는 행렬 곱의 순환 순열에서 변하지 않습니다.tr[ACB]=tr[CAB]=tr[BCA]
- 이후 스칼라, 우리는 추적을 동일한 값을 얻을 수있다 :xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
이러한 속성을 결합하면 계산할 수 있습니다
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
이것은 벡터 의 외부 곱입니다 .x
이제 로그 우도 함수를 다시 작성하고 미분 wrt 계산할 수 있습니다 (주 는 일정합니다)Σ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
0으로 동일하고 대한 해결Σ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
출처