(이 답변은 귀하가 제공 한 두 번째 링크를 사용합니다.)
θ = ( θ A , θ B ) X = ( X 1 , … , X 5 ) X i Z = ( Z 1 , … , Z 5 )
L[θ|X]=Pr[X|θ]=∑ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,…,X5)XiZ=(Z1,…,Z5)
우리는 최대 우도 추정기 찾으려면 θ를 . 기대치 - 최대화 (EM) 알고리즘 (최소 로컬) 발견하는 하나의 이러한 방법 θ를 . 조건부 기대 값을 찾아서 작동하며 θ 를 최대화하는 데 사용됩니다 . 아이디어는
각 반복에서 더 가능성이 높은 (즉, 더 가능성이 높은) θ 를 지속적으로 찾아서 Pr [ X , Zθ^θ^θθ 는 우도 함수를 증가시킵니다. EM 기반 알고리즘을 설계하기 전에 수행해야 할 세 가지가 있습니다.Pr [ X, Z| θ]
- 모델 구성
- 모델 하의 조건부 기대 계산 (E-Step)
- 현재 추정치를 업데이트하여 가능성을 극대화 (M-Step)θ
모델 구성
EM을 계속 진행하기 전에 정확히 그것이 무엇인지 계산해야합니다. E- 단계에서는 . 이 값은 무엇입니까? 그
로그 Pr [ X , Z | θ ]로그Pr [ X, Z| θ]
로그Pr [ X, Z| θ]= ∑나는 = 15로그∑씨∈ { A , B }Pr [ X나는, Z나는= C| θ]= ∑나는 = 15로그∑씨∈ { A , B}홍보 [Z나는=C|엑스나는, θ ] ⋅ Pr [ X나는,Z나는=C| θ]홍보 [Z나는=C|엑스나는, θ ]≥ ∑나는 = 15∑씨∈ { A , B }Pr [ Z나는= C| 엑스나는, θ ] ⋅ 로그Pr [ X나는, Z나는= C| θ]Pr [ Z나는= C| 엑스나는, θ ].
그 이유는 5 가지 실험이 있고 각 동전에 어떤 동전이 사용되었는지 모르기 때문입니다. 불평등은
가 오목하고 Jensen의 불평등을 적용 하기 때문 입니다. 하한이 필요한 이유는 원래 방정식에 대한 arg max를 직접 계산할 수 없기 때문입니다. 그러나 최종 하한값을 계산할 수 있습니다.
로그
이제 ? 실험 X i 및 θ가 주어지면 코인 C를 볼 확률입니다 . 조건부 확률을 사용하여 Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θPr [ Z나는= C| 엑스나는, θ ]씨엑스나는θ
Pr [ Z나는= C| 엑스나는, θ ] = Pr [ X나는, Z나는= C| θ]Pr [ X나는| θ].
우리는 약간의 진전을 이루었지만 아직 모델을 완성하지 못했습니다. 주어진 코인이 시퀀스 뒤집었을 확률은 얼마입니까? 시키는 시간 내가 = # 에서 헤드 X I 잠 [ X I , Z 난 = C를 | θ ] =엑스나는h나는= # X의 머리 나는
이제Pr[Xi| θ]는Zi=A또는Zi=B의 두 가지 가능성 모두에서 확률 일뿐입니다. 이후잠이[Z난=A를]Z는전=
Pr [ X나는, Z나는= C| θ]= 12⋅ θh나는씨( 1 − θ씨)10 - 시간나는, 대 C ∈ { , B } .
Pr [ X나는| θ]지나는= A지나는= B 우리가,
잠 [ X I | θ ] = 1 / 2 ⋅ ( 잠이 [ X 난 | Z가 나는 = 를 , θ ] + 홍보 [ X 난 | Z는 전 = B는 , θ ] )Pr [ Z나는= A ] = Pr [ Z나는= B ] = 1 / 2Pr [ X나는| θ]=1 / 2⋅(잠[ X를나는| 지나는= A , θ ] + Pr [ X나는| 지나는= B , θ ] ) .
전자 단계
알았어 .. 재미 있지는 않았지만 이제 EM 작업을 시작할 수 있습니다. EM 알고리즘은 대해 임의의 추측을하는 것으로 시작합니다 . 이 예에서는 θ 0 = ( 0.6 , 0.5 ) 입니다. 우리는
Pr [ Z 1 = A | X 1 , θ ] = 1 / 2 ⋅ ( 0.6 5 ⋅ 0.4 5 )θθ0= ( 0.6 , 0.5 )
이 값은 논문의 내용과 일치합니다. 이제동전A,
E에서X1=(H,T,T,T,H,H,T,H,T,H)에서예상 헤드 수를 계산할 수 있습니다
Pr [ Z1= A | 엑스1, θ ] = 1 / 2 ⋅ ( 0.65⋅ 0.45)1 / 2 ⋅ ( ( 0.65⋅ 0.45) + ( 0.55⋅ 0.55) )≈ 0.45.
엑스1= ( H, T, T, T, H, H, T, H, T, H)ㅏ = B우리가 얻는
동전
B에 대해 똑같은 일을한다.
E [ # 동전 B의 머리 | X 1 , θ ] = h 1 ⋅ Pr [ Z 1 | X 1 ,E [ # 동전 A로 머리 | 엑스1, θ ] = h1⋅ Pr [ Z1= A | 엑스1, θ ] = 5 ⋅ 0.45 ≈ 2.2.
비h 1 을
10 - h 1
로 대체하여 꼬리 수에 대해 동일하게 계산할 수 있습니다. 이것은
X i 및
h i 1 ≤ i ≤ 5의 다른 모든 값에 대해 계속됩니다. 기대의 선형성 덕분에 우리는
동전 A로 E [ # 머리를 알아낼 수 있습니다
| X , θ ] = 5 ∑ i E [ # 동전 A 머리 E [ # 동전 B로 머리 | 엑스1, θ ] = h1⋅ Pr [ Z1= B | 엑스1, θ ] = 5 ⋅ 0.55 ≈ 2.8.
h110 - 시간1엑스나는h나는 1 ≤ i ≤ 5E [ # 동전 A로 머리 | 엑스, θ ] = ∑나는 = 15E [ # 동전 A로 머리 | 엑스나는, θ ]
M 단계
θ
θ1ㅏ= E[ # 는 X 보다 앞서 동전 A | 엑스, θ ]이자형[ #의 머리 이상 꼬리 X 동전 A | 엑스, θ ]= 21.321.3 + 9.6≈ 0.71.
비θ1θθ^= θ10= ( 0.8 , 0.52 )홍보 [X, Z| θ]θ .
θ^