혼합 모델에 기대 극대화가 중요한 이유는 무엇입니까?

혼합 모델 (가우스 혼합, 은닉 마르코프 모델 등)에 대한 기대 최대화 방법을 강조하는 문헌이 많이 있습니다.

EM이 중요한 이유 EM은 최적화를 수행하는 방법 일 뿐이며 그라디언트 기반 방법 (그라데이션 디센트 또는 뉴턴 / 쿼이 뉴턴 방법) 또는 여기에서 논의 된 기타 그라디언트 프리 방법으로 널리 사용되지는 않습니다 . 또한 EM은 여전히 지역 최소 문제가 있습니다.

프로세스가 직관적이고 코드로 쉽게 전환 될 수 있기 때문입니까? 아니면 다른 이유는 무엇입니까?

— 하이 타오 뒤
소스

답변:

원칙적으로 EM 및 표준 최적화 방법은 혼합 분포에 적합합니다. EM과 마찬가지로 볼록 최적화 솔버는 로컬 최적으로 수렴됩니다. 그러나 여러 개의 로컬 옵티마가있는 경우 더 나은 솔루션을 찾기위한 다양한 최적화 알고리즘이 있습니다. 내가 아는 한, 최고의 수렴 속도를 가진 알고리즘은 문제에 달려 있습니다.

EM의 한 가지 장점은 모든 반복에서 혼합 분포에 대해 유효한 매개 변수를 자연스럽게 생성한다는 것입니다. 대조적으로 표준 최적화 알고리즘은 구속 조건이 필요하다. 예를 들어 가우스 혼합 모델을 피팅한다고 가정합니다. 표준 비선형 프로그래밍 접근법은 구속 공분산 행렬이 양의 반 정밀도가되고 구속 성분의 가중치가 음이 아니고 1이되도록 제한해야합니다.

고차원 문제에서 우수한 성능을 얻으려면 일반적으로 비선형 프로그래밍 솔버에서 그래디언트를 활용해야합니다. 따라서 그라디언트를 파생 시키거나 자동 미분으로 계산해야합니다. 그라디언트는 표준 형식이없는 구속 조건 함수에도 필요합니다. 뉴턴의 방법과 관련 방법 (예 : 신뢰 영역 방법)도 헤 시안이 필요합니다. 그래디언트를 사용할 수없는 경우 유한 차분 또는 미분없는 방법을 사용할 수 있지만 매개 변수 수가 증가하면 성능이 저하되는 경향이 있습니다. 반대로 EM에는 그라디언트가 필요하지 않습니다.

EM은 개념적으로 직관적이며 이는 큰 미덕입니다. 이것은 종종 표준 최적화 접근법에도 적용됩니다. 많은 구현 세부 사항이 있지만 전반적인 개념은 간단합니다. 이러한 세부 사항을 추상화하는 표준 최적화 솔버를 사용하는 것이 종종 가능합니다. 이 경우 사용자는 목적 함수, 제약 조건 및 그라디언트를 제공하고 문제에 적합한 솔버를 선택할 수있는 충분한 실무 지식을 갖추어야합니다. 그러나 사용자가 최적화 알고리즘에 대한 저수준 세부 사항을 생각하거나 구현해야하는 시점에 도달하려면 전문 지식이 필요합니다.

EM 알고리즘의 또 다른 이점은 일부 데이터 값이 누락 된 경우 사용할 수 있다는 것입니다.

또한 관심 (댓글 포함) :

— 사용자 20160
소스

혼합 모델의 경우 제약 조건은 종종 매개 변수화를 통해 시행 될 수 있습니다. 예 :

은

과

를 최적화하여 수행 할 수 있습니다

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

q_{i} \in R

$q_i \in \mathbb{R}$

p_{i} = \frac{\exp (q_{i})}{\sum_{j} \exp (q_{j})}

$p_i = \frac{\exp(q_i)}{\sum_j\exp(q_j)}$

— bayerj

C

$C$

U

$U$

C = U^{T} U

$C = U^T U$

C

$C$

U

$U$

0

$0$

맞아 맞아 콜레 스키 분해야 훨씬 낫다.

— user20160

좋은 답변 +1! "모든 반복에서 혼합 분포에 대한 유효한 매개 변수를 자연스럽게 생성합니다"에 대해 더 설명 할 수 있습니까? 다른 방법의 경우에도 각 반복마다 결정 변수 값이 있습니다.

— Haitao Du

user20160의 대답은 매우 좋은 설명을 제공한다고 생각합니다. 여기서 그라디언트 기반 방법을 적합하지 않게 만드는 가장 중요한 이유는 공분산 행렬이 양의 반 정밀도가되고 혼합 계수가 음이 아니고 1까지 합산되어야한다는 제약 조건입니다.

공분산 행렬을 대각선으로 제한하면이 두 가지 제약 조건을 쉽게 표현할 수 있습니다.

Σ = [\begin{matrix} σ_{1}^{2} \\ ⋱ \\ σ_{엔}^{2} \end{matrix}]

$\Sigma = \begin{bmatrix} \sigma^2_{1} & & \\ & \ddots & \\ & & \sigma^2_{N} \end{bmatrix}$

ϕ_{케이} = {이자형}^{피_{케이}} / \sum_{케이} {이자형}^{피_{나는}}

$\phi_k=e^{p_k}/\sum_Ke^{p_i}$

또한이를 통해 ELBO (variational lower bound) 대신 진정한 가능성을 직접 최적화 할 수 있으므로 잠재 변수가 필요하지 않습니다.

그러나 그러한 경우에도 EM은 종종 그래디언트보다 더 나은 알고리즘으로 판명되었습니다.

— 돈루
소스