숨겨진 Markov 모델 및 기대 최대화 알고리즘

10

숨겨진 Markov 모델이 기대 최대화와 어떻게 관련되어 있는지 누군가가 설명 할 수 있습니까? 많은 링크를 겪었지만 명확한 견해를 얻지 못했습니다.

감사!

markov-process expectation-maximization hidden-markov-model

— 천둥
소스

12

EM 알고리즘 (예상 최대화)은 모델이 관찰 및 관찰되지 않은 (잠재적) 구성 요소로 비 정기적으로 지정된 경우 가능성 함수의 최적화를위한 일반적인 알고리즘입니다. HMM (숨겨진 Markov 모델)은 관찰되지 않은 구성 요소, 숨겨진 상태 및 실제 관찰을 종종 HMM 용어로 방출 이라고하기 때문에이 형식의 모델입니다 . 따라서 HMM은 EM 알고리즘이 유용 할 수있는 모델 클래스를 형성합니다.

일반적으로, 모형이 두 성분 으로 구성되는 경우 단순성을 위해 유한 공간에서 값을 취하는 것으로 가정하고 확률 론적 모형 사양이 관절 점 확률로 구성되는 경우 에 의해 매개 변수화 만 관찰 할 때, 그 우도 이고 $(X,Y)$ $p_{\theta}(x,y)$ $\theta$ $X = x$

L_{x} (θ) = \sum_{y} p_{θ} (x, y) .

$L_x(\theta) = \sum_{y} p_{\theta}(x,y).$ 합은 결백 해 보이지만 그렇지 않습니다. HMM의 경우 합은 숨겨진 상태 간의 가능한 모든 전이에 걸쳐 있으며 관측 된 시퀀스의 길이가 커질 때 빠르게 엄청난 수가됩니다. 다행히도 가능성을 빠르게 계산하기위한 HMM 알고리즘 (앞뒤로)이 있으며, 원칙적으로 가능성은 의 maksimum-likelihood 추정을위한 범용 최적화 알고리즘에 연결될 수 있습니다. 대안은 EM 알고리즘입니다. 이것은 반복적으로 번갈아가는 알고리즘입니다.

θ

$\theta$

E 단계 (A)의 연산이고, 조건부 관찰 주어진 기대 의 현재의 추정치 $x$ $\theta$
M 단계 극대화이고,

EM 알고리즘은 위의 두 단계가 계산적으로 효율적인 방식으로 구현 될 수있는 경우에 가장 적합합니다 (예 : 조건부 기대 및 최대화를 위해 양식 표현식을 닫은 경우).

역사적으로 일반적인 EM 알고리즘은 Dempster, Laird 및 Rubin 에게 1977 년 논문에서 알고리즘이 단조롭게 증가하는 가능성 값을 갖는 일련의 매개 변수로 이어진다는 사실을 인정합니다. 그들은 또한 "EM- 알고리즘"이라는 용어를 만들었다. 흥미롭게도, HMM에 대한 EM 알고리즘은 1970 년에 Baum et al. HMM 문헌에서 종종 Baum-Welch 알고리즘 이라고도합니다 (Welch가 수행 한 작업을 정확히 알지 못합니다).

— NRH
소스

3

웰치는 현재 바움 웰치 알고리즘 (Baum-Welch algorithm)을 발명했다. Baum은 알고리즘이 작동한다는 것을 수학적으로 증명합니다 ( "어려운 부분"). 자세한 내용은 course.cs.tamu.edu/rgutier/cpsc689_s07/welch2003baumWelch.pdf 를 참조 하십시오.

— Mikhail Korobov

@MikhailKorobov,이 유익한 참조에 감사드립니다.

— NRH

2

기대 최대화는 다양한 생성 통계 모델 (예 : 가우시안과 다른 베이지안 네트워크 유형 모델의 혼합)에 대한 통계적 추론을 수행하는 데 사용되는 반복적 방법입니다. 유일한 연결은 HMM도 베이지안 네트워크라는 것입니다. 그러나 HMM 내에서 Viterbi 알고리즘이라고하는 추론에 대한 정확한 알고리즘이 있기 때문에 아마도 HMM에서 EM을 사용하지 않을 것입니다. 따라서 EM을 사용하여 HMM에서 추론을 수행 할 수는 있지만 그럴 이유가 없기 때문입니다.

— 윌리엄
소스

4

두 가지 종류의 "추론"을 혼합하기 때문에 이것은 완전히 정확한 것은 아닙니다. EM은 알려지지 않은 파라미터를 추정하는 알고리즘이고, Viterbi는 가장 가능성있는 숨겨진 상태 시퀀스를 계산하는 알고리즘입니다. 실제로 모수 추정을 위해 HMM에 EM을 사용합니다. 나는 내 대답에서 HMM과 EM의 관계를 설명하는 역사적 참조를 통해 EM 알고리즘에 대해 더 자세히 설명했습니다.

— NRH

0

HMM에서는 주로 세 가지 매개 변수를 추정하려고합니다.

초기 상태 확률. 요소 가있는 벡터입니다 . 여기서 는 상태 수입니다. $K$ $K$
전이 행렬. 이것은 크기 의 정사각 행렬입니다 . $K\times K$
어떤 상태로 조건이 지정된 항목을 관찰하는 조건부 확률. 이것은 또한 크기의 행렬이며 , 여기서 은 관측치의 수입니다. $K\times N$ $N$

이제 EM 부분은 위에서 언급 한 수량 / 매개 변수를 추정하려고 할 때 나타납니다. 임의의 추측으로 시작하여 관측의 가능성을 평가하고 최대 가능성을 얻을 때까지 매개 변수를 반복적으로 조정합니다. 따라서 HMM을 통해 일부 프로세스를 모델링하므로 일부 매개 변수를 도입해야합니다. 매개 변수를 추정하기 위해 EM이 렌더링됩니다.

이것은 매우 간단한 답변입니다. EM을 구현하려면 일련의 기술을 통해 해결하기 위해 여러 가지 하위 문제가 필요합니다. 깊이있는 이해를 위해서는 Rabiner 클래식 튜토리얼 용지를 적극 권장합니다.

— 리아 즈 칸
소스