코인 토스 예제에 기대 극대화 적용

나는 최근에 Expectation Maximization을 스스로 연구했고 그 과정에서 몇 가지 간단한 예를 들었습니다.

에서 여기에 세 동전이 있습니다 $c_0$ , $c_1$ 과 $c_2$ 와 $p_0$ , $p_1$ 과 $p_2$ 던져 머리에 착륙 각각의 확률. 던 $c_0$ 졌습니다. 결과가 Head이면 $c_1$ 3 번 던지거나 그렇지 않으면 $c_2$ 3 번 던지십시오 . $c_1$ 및 의해 생성 된 관찰 된 데이터는 $c_2$ HHH, TTT, HHH, TTT, HHH와 같습니다. 숨겨진 데이터는 의 결과입니다 $c_0$ . 추정 $p_0$ , $p_1$ 및 $p_2$ .

그리고에서 여기 : 두 개의 동전이 있습니다 $c_A$ 와 $c_B$ 와 $p_A$ 및 $p_B$ 던져 때 머리에 착륙 각각의 확률 인가. 각 라운드마다 동전 하나를 무작위로 골라 10 번 던집니다. 결과를 기록하십시오. 관찰 된 데이터는이 두 코인이 제공 한 던지기 결과입니다. 그러나 특정 라운드에 어떤 동전이 선택되었는지는 알 수 없습니다. $p_A$ 와 추정합니다 $p_B$ .

계산을 할 수는 있지만 해결 방법을 원래 EM 이론과 연관시킬 수는 없습니다. 특히, 두 예제의 M-Step 중에는 어떻게 최대화하는지 알 수 없습니다. 매개 변수를 다시 계산하는 것처럼 보이며 어쨌든 새 매개 변수가 이전 매개 변수보다 낫습니다. 더욱이, 두 개의 E- 단계는 원래 이론의 E- 단계를 언급하지 않고 서로 비슷해 보이지 않습니다.

그렇다면이 예제들은 정확히 어떻게 작동합니까?

probability-theory statistics

— 얼음 눈
소스

첫 번째 예에서 동일한 실험의 사례는 몇 개입니까? 두 번째 예에서, "하나의 동전을 무작위로 선택"하는 법칙은 무엇입니까? 우리는 얼마나 많은 라운드를 관찰합니까?

— Raphael

내가 링크 한 PDF 파일은 이미이 두 예제를 단계별로 해결합니다. 그러나 EM 알고리즘을 실제로 이해하지 못합니다.

— IcySnow

@IcySnow, 임의 변수의 기대 및 조건부 기대의 개념을 이해합니까?

— Nicholas Mancuso

나는 임의 변수와 조건부 확률에 대한 기본적인 기대를 이해합니다. 그러나 나는 조건부 기대, 그 파생어 및 충분한 통계에 익숙하지 않습니다.

— IcySnow

(이 답변은 귀하가 제공 한 두 번째 링크를 사용합니다.)

$\newcommand{\Like}{\text{L}}\newcommand{\E}{\text{E}}$

L [θ | X] = Pr [X | θ] = \sum_{Z} Pr [X, Z | θ]

$\Like[\theta | X] = \Pr[X| \theta] = \sum_Z \Pr[X, Z | \theta]$

θ = (θ_{A}, θ_{B})

$\theta = (\theta_A, \theta_B)$

X = (X_{1}, \dots, X_{5})

$X = (X_1, \dotsc, X_5)$

X_{i}

$X_i$

Z = (Z_{1}, \dots, Z_{5})

$Z = (Z_1, \dotsc, Z_5)$

우리는 최대 우도 추정기 찾으려면 . 기대치 - 최대화 (EM) 알고리즘 (최소 발견하는 하나의 이러한 방법 . 조건부 기대 값을 찾아서 작동하며 를 최대화하는 데 사용됩니다 . 아이디어는 각 반복에서 더 가능성이 높은 (즉, 더 가능성이 높은) 를 지속적으로 찾아서 $\hat{\theta}$ $\hat{\theta}$ $\theta$ $\theta$ 는 우도 함수를 증가시킵니다. EM 기반 알고리즘을 설계하기 전에 수행해야 할 세 가지가 있습니다. $\Pr[X,Z|\theta]$

모델 구성
모델 하의 조건부 기대 계산 (E-Step)
현재 추정치를 업데이트하여 가능성을 극대화 (M-Step) $\theta$

모델 구성

EM을 계속 진행하기 전에 정확히 그것이 무엇인지 계산해야합니다. E- 단계에서는 . 이 값은 무엇입니까? 그 $\log \Pr[X,Z|\theta]$

\begin{aligned} 로그 홍보 [엑스, 지 | θ] & = \sum_{나는 = 1}^{5} 로그 \sum_{씨 \in {ㅏ, 비}} 홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ] \\ = \sum_{나는 = 1}^{5} 로그 \sum_{씨 \in {ㅏ, 비}} 홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] \cdot \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ]} \\ \geq \sum_{나는 = 1}^{5} \sum_{씨 \in {ㅏ, 비}} 홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] \cdot 로그 \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ]} . \end{aligned}

$\begin{align*} \log \Pr[X,Z|\theta] &= \sum_{i=1}^5 \log\sum_{C\in \{A,B\}}\Pr[X_i, Z_i=C| \theta]\\ &=\sum_{i=1}^5 \log\sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}\\ &\geq \sum_{i=1}^5 \sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \log\frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}. \end{align*}$ 그 이유는 5 가지 실험이 있고 각 동전에 어떤 동전이 사용되었는지 모르기 때문입니다. 불평등은

가 오목하고 Jensen의 불평등을 적용 하기 때문 입니다. 하한이 필요한 이유는 원래 방정식에 대한 arg max를 직접 계산할 수 없기 때문입니다. 그러나 최종 하한값을 계산할 수 있습니다.

\log

$\log$

이제 ? 실험 및 주어지면 코인 볼 확률입니다 . 조건부 확률을 사용하여 $\Pr[Z_i=C|X_i,\theta]$ $C$ $X_i$ $\theta$

홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] = \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [{엑스}_{나는} | θ]} .

$\Pr[Z_i=C| X_i, \theta] = \frac{\Pr[X_i, Z_i = C|\theta]}{\Pr[X_i|\theta]}.$

우리는 약간의 진전을 이루었지만 아직 모델을 완성하지 못했습니다. 주어진 코인이 시퀀스 뒤집었을 확률은 얼마입니까? 시키는 $X_i$ $h_i = \#\text{heads in } X_i$ 이제는또는의 두 가지 가능성 모두에서 확률 일뿐입니다. 이후

홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ] = \frac{1}{2} \cdot θ_{씨}^{h_{나는}} (1 - θ_{씨})^{10 - h_{나는}}, ...에 대한 씨 \in {ㅏ, 비} .

$\Pr[X_i, Z_i = C| \theta] = \frac{1}{2} \cdot \theta_C^{h_i} (1 - \theta_C)^{10 - h_i},\ \text{ for } \ C \in \{A, B\}.$

Pr [X_{i} | θ]

$\Pr[X_i|\theta]$

Z_{i} = A

$Z_i=A$

Z_{i} = B

$Z_i=B$

우리가,

Pr [Z_{i} = A] = Pr [Z_{i} = B] = 1 / 2

$\Pr[Z_i = A] = \Pr[Z_i = B] = 1/2$

홍보 [{엑스}_{나는} | θ] = 1 / 2 \cdot (홍보 [{엑스}_{나는} | 지_{나는} = ㅏ, θ] + 홍보 [{엑스}_{나는} | 지_{나는} = 비, θ]) .

$\Pr[X_i|\theta] = 1/2 \cdot (\Pr[X_i |Z_i = A, \theta] + \Pr[X_i |Z_i = B, \theta]).$

전자 단계

알았어 .. 재미 있지는 않았지만 이제 EM 작업을 시작할 수 있습니다. EM 알고리즘은 대해 임의의 추측을하는 것으로 시작합니다 . 이 예에서는 입니다. 우리는 $\theta$ $\theta^0 = (0.6,0.5)$ 이 값은 논문의 내용과 일치합니다. 이제동전, 에서에서예상 헤드 수를 계산할 수 있습니다

홍보 [지_{1} = ㅏ | {엑스}_{1}, θ] = \frac{1 / 2 \cdot ({0.6}^{5} \cdot {0.4}^{5})}{1 / 2 \cdot (({0.6}^{5} \cdot {0.4}^{5}) + ({0.5}^{5} \cdot {0.5}^{5}))} \approx 0.45.

$\Pr[Z_1=A|X_1,\theta] = \frac{1/2 \cdot (0.6^5 \cdot 0.4^5)}{1/2 \cdot ((0.6^5 \cdot 0.4^5) + (0.5^5 \cdot 0.5^5))} \approx 0.45.$

X_{1} = (H, T, T, T, H, H, T, H, T, H)

$X_1 = (H,T,T,T,H,H,T,H,T,H)$

A

$A$

우리가 얻는 동전

대해 똑같은 일을한다.

이자형 [# 동전으로 머리 ㅏ | {엑스}_{1}, θ] = h_{1} \cdot 홍보 [지_{1} = ㅏ | {엑스}_{1}, θ] = 5 \cdot 0.45 \approx 2.2.

$\E[\# \text{heads by coin }A | X_1, \theta] = h_1 \cdot \Pr[Z_1=A|X_1,\theta] = 5 \cdot 0.45 \approx 2.2.$

B

$B$

을

로 대체하여 꼬리 수에 대해 동일하게 계산할 수 있습니다. 이것은

및

다른 모든 값에 대해 계속됩니다. 기대의 선형성 덕분에 우리는

알아낼 수 있습니다

이자형 [# 동전으로 머리 비 | {엑스}_{1}, θ] = h_{1} \cdot 홍보 [지_{1} = 비 | {엑스}_{1}, θ] = 5 \cdot 0.55 \approx 2.8.

$\E[\# \text{heads by coin }B | X_1, \theta] = h_1 \cdot \Pr[Z_1=B|X_1,\theta] = 5 \cdot 0.55 \approx 2.8.$

h_{1}

$h_1$

10 - h_{1}

$10 - h_1$

X_{i}

$X_i$

h_{i}

$h_i$

1 \leq i \leq 5

$1 \leq i \leq 5$

이자형 [# 동전으로 머리 ㅏ | 엑스, θ] = \sum_{나는 = 1}^{5} 이자형 [# 동전으로 머리 ㅏ | {엑스}_{나는}, θ]

$\E[\#\text{heads by coin } A|X ,\theta] = \sum_{i=1}^5 \E[\# \text{heads by coin }A | X_i, \theta]$

M 단계

$\theta$

θ_{ㅏ}^{1} = \frac{이자형 [# 머리 위로 엑스 동전으로 ㅏ | 엑스, θ]}{이자형 [# 머리와 꼬리 엑스 동전으로 ㅏ | 엑스, θ]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.

$\theta_A^1 = \frac{E[\#\text{heads over } X \text{ by coin } A|X ,\theta]}{E[\#\text{heads and tails over } X \text{ by coin } A|X ,\theta]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.$

B

$B$

θ^{1}

$\theta^1$

θ

$\theta$

\hat{θ} = θ^{10} = (0.8, 0.52)

$\hat{\theta} = \theta^{10} = (0.8, 0.52)$

Pr [X, Z | θ]

$\Pr[X,Z|\theta]$

θ

$\theta$ .

$\hat{\theta}$

— 니콜라스 만 쿠소
소스

확실하지 않은 부분이 있으면 확장 할 수도 있습니다.

— Nicholas Mancuso

이제 훨씬 더 명확 해집니다. 내가 실제로 얻지 못하는 것은 동전 A에 대한 예상 헤드 수가 다음과 같이 계산 된 이유입니다. 2.2? 첫 번째 PDF에서 언급 된 문제는 더 복잡합니다. 마음에 들지 않는다면, 그것에 대한 예시적인 계산을 할 수 있습니까? 답변 주셔서 감사합니다.

— IcySnow

E [# heads by coin A | X_{1}, θ] = \sum_{# heads in X_{1}} Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot Pr [Z_{1} = A | X_{1}, θ]

$E[\# \text{ heads by coin }A|X_1,\theta] = \sum_{\#\text{ heads in }X_1} \Pr[Z_1 = A| X_1, \theta] = 5 \cdot \Pr[Z_1 = A| X_1, \theta]$ . 그 이유는 A를 사용한 경우 다른 표시기 임의 변수가 있다고 생각할 수 있기 때문입니다. 인디케이터 변수에 대한 예상 계산은 해당 이벤트의 확률입니다.

— Nicholas Mancuso

답장이 느려 죄송합니다. 덕분에 답을 여러 번 겪은 후 두 동전 예제의 논리를 실제로 이해할 수 있습니다. 이 질문에 관해 마지막으로 물어보고 싶은 것이 있습니다.이 슬라이드의 8 페이지부터 시작하는 예제 cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt 는 M-Step에서 먼저 계산해야 함을 보여줍니다. 로그 우도 함수의 미분을 사용하여 기대치를 최대화합니다. 동전 던지기 예제에서 M-Steps와 같은 것이 아닌 이유는 무엇입니까? 이 M-Step은 무엇을 최대화하고있는 것처럼 보이지 않기 때문에

— IcySnow

Pr [Z_{i} = A | X_{i}, θ] + Pr [Z_{i} = B | X_{i}, θ] = 1

$\Pr[Z_i=A|X_i,\theta]+\Pr[Z_i=B|X_i,\theta]=1$

i

$i$