이변 량 혼합 분포를 갖는 EM 알고리즘으로부터의 수렴


9

주어진 데이터 세트 와 부분적으로 관측 된 데이터 세트 의 최대 우도 추정치를 찾고자하는 혼합 모델이 있습니다. I는 (의 기대 계산 단계 E를 모두 구현 한 주어진 및 전류 파라미터 예상 소정의 음의 로그 우도 최소화하기 위해, 상기 M-공정) .xzzxθkz

내가 이해했듯이 모든 반복에 대해 최대 가능성이 증가하고 있습니다. 이것은 모든 반복에 대해 음의 로그 가능성이 감소해야 함을 의미합니까? 그러나 반복 할 때 알고리즘은 실제로 음의 로그 가능성의 감소 값을 생성하지 않습니다. 대신 감소하고 증가 할 수 있습니다. 예를 들어 이것은 수렴 할 때까지 음의 로그 우도 값입니다.

여기에 이미지 설명을 입력하십시오

내가 오해 한 것이 있습니까?

또한 잠재 잠재 (관찰되지 않은) 변수에 대한 최대 가능성을 수행 할 때 시뮬레이션 된 데이터의 경우 프로그래밍 오류가 없음을 나타내는 완벽하게 맞습니다. EM 알고리즘의 경우, 특히 매개 변수의 특정 하위 집합 (예 : 분류 변수의 비율)에 대해 차선책으로 명확하게 수렴하지 않는 경우가 많습니다. 알고리즘이 국부적 최소 점 또는 정지 점으로 수렴 될 수 있거나 , 종래의 검색 휴리스틱이 있거나 또는 마찬가지로 글로벌 최소 (또는 최대)를 찾을 가능성을 증가시키는 것으로 알려져있다 . 이 특정 문제의 경우, 이변 량 혼합의 경우 두 분포 중 하나의 분포가 확률 1의 값을 가지므로 (실제 수명이T=zT0+(1z) 여기서 는 각 분포에 속하는 것을 나타냅니다. 지표 는 물론 데이터 세트에서 검열됩니다. zz여기에 이미지 설명을 입력하십시오

이론적 솔루션으로 시작할 때에 대한 두 번째 그림을 추가했습니다 (최적에 가깝습니다). 그러나 알 수 있듯이 가능성과 매개 변수는이 솔루션에서 명확하게 열등한 솔루션으로 다양합니다.

편집 : 전체 데이터는 여기서 는 주제 의 관측 시간 이고 는 시간이 실제 이벤트와 연관되어 있는지 여부를 나타냅니다. 또는 오른쪽이 검열 된 경우 (1은 이벤트를 나타내고 0은 오른쪽 검열을 나타내는 경우) 는 절단 표시기 를 사용하여 관측치의 절단 시간 (0 일 수 있음) 이고 마지막으로 는 관측치가 속한 모집단을 나타냅니다. 이변 량은 0과 1 만 고려하면됩니다).xi=(ti,δi,Li,τi,zi)나는나는δ나는나는τ나는나는

들어 우리 밀도 함수가 와 마찬가지로 그것이 테일 분포 함수와 연관된 . 들어 관심 이벤트가 발생하지 않습니다. 이 분포와 관련된 는 없지만 정의 하므로 및 입니다. 또한 다음과 같은 완전 혼합 분포가 생성됩니다.=1에프()=에프(|=1)에스()=에스(|=1)=0INF에프(|=0)=0에스(|=0)=1

에프()=나는=01나는에프(|=나는)=에프(|=1)에스()=1+에스()

우리는 가능성의 일반적인 형태를 정의합니다.

(θ;엑스나는)=Π나는에프(나는;θ)δ나는에스(나는;θ)1δ나는에스(나는)τ나는

이제 는 일 때만 부분적으로 관찰 되며 그렇지 않으면 알 수 없습니다. 완전한 가능성은δ=1

(θ,;엑스나는)=Π나는((에프(나는;θ))나는)δ나는((1)(1나는)(에스(나는;θ))나는)1δ나는((1)(1나는)(에스(나는;θ))나는)τ나는

여기서 는 해당 분포의 가중치입니다 (일부 링크 함수에 의해 일부 공변량 및 해당 계수와 연관 될 수 있음). 대부분의 문헌에서 이것은 다음과 같은 로그 가능성으로 단순화됩니다.

(ziln(p)+(1p)ln(1p)τ나는(나는ln()+(1나는)ln(1))+δ나는나는에프(나는;θ)+(1δ나는)나는에스(나는;θ)τ나는에스(나는;θ))

들어 M 단계 ,이 함수는 아니지만 극대화 한 방법에서 그 전체가 최대화된다. 대신 우리는 이것을 부분으로 분리 할 수 ​​없습니다 .(θ,;)=1(θ,)+2(,)

k : th + 1 E-step 의 경우 (부분적으로) 관찰되지 않은 잠재 변수 의 예상 값을 찾아야합니다 . 에 이라는 사실을 사용합니다 .나는δ=1=1

이자형(나는|엑스나는,θ(케이),(케이))=δ나는+(1δ나는)(나는=1;θ(케이),(케이)|엑스나는)

여기(나는=1;θ(케이),(케이)|엑스나는)=(엑스나는;θ(케이),(케이)|나는=1)(나는=1;θ(케이),(케이))(엑스나는;θ(케이),(케이))

우리주는(나는=1;θ(케이),(케이)|엑스나는)=에스(나는;θ(케이))1+에스(나는;θ(케이))

(여기서 이므로 이벤트가 관찰되지 않으므로 데이터 의 확률은 꼬리 분포 함수에 의해 제공됩니다.δ나는=0엑스나는


처음부터 문제의 변수와 E 및 M 방정식을 작성해 주시겠습니까?
alberto

1
물론, 나는 E와 M 단계에 관한 자세한 내용으로 질문을 편집했습니다
Good Guy Mike

명확히하기 위해, 플로팅 된 값은 불완전한 데이터에 대한 추정값이 제공된 전체 MLE입니다.
Good Guy Mike

란 무엇입니까 ? "이 배포판과 관련이 없지만, 우리는 그것을 배포판으로 정의합니다 ..."를 이해하지 못합니다. 에스
wij

1
EM 알고리즘은 예상되는 완전한 데이터 가능성을 직접 최대화하지만 관측 된 데이터 가능성의 증가를 보장 할 수 있습니다. 관측 된 데이터 가능성의 증가를 확인하고 있습니까?
Randel

답변:


6

EM의 목표는 관찰 된 데이터 로그 가능성을 최대화하는 것입니다.

(θ)=나는ln[(엑스나는,|θ)]

불행히도 이것은 와 관련하여 최적화하기가 어려운 경향이 있습니다 . 대신 EM은 보조 기능을 반복적으로 형성하고 최대화합니다.θ

(θ,θ)=이자형|θ(나는ln(엑스나는,나는|θ))

경우 최대화 , EM을 보장θ+1(θ,θ)

(θ+1)(θ+1,θ)(θ,θ)=(θ)

이것이 왜 그런지 정확히 알고 싶다면 머피의 머신 러닝 : 확률 적 관점 의 11.4.7 절 에 좋은 설명이 있습니다. 구현 이러한 불평등을 충족 시키지 못하면 어딘가에 실수를 한 것입니다. 같은 말을

프로그래밍 오류가 없음을 나타내는 완벽하게 맞습니다.

위험합니다. 많은 최적화 및 학습 알고리즘을 사용하면 실수를 저지르는 것이 쉽지만 대부분의 경우 정답을 얻을 수 있습니다. 내가 좋아하는 직감은이 알고리즘이 지저분한 데이터를 처리하기위한 것이므로 버그를 잘 처리한다는 것은 놀라운 일이 아닙니다!


질문의 나머지 반쪽에서

전역 최소값 (또는 최대 값)을 찾을 가능성을 높이기 위해 기존의 검색 휴리스틱 또는 유사 검색이 있습니까?

무작위로 다시 시작하는 것이 가장 쉬운 방법입니다. 다음으로 가장 쉬운 방법은 아마도 초기 매개 변수에 대한 시뮬레이션 어닐링입니다. 나는 결정 론적 어닐링 이라고 불리는 EM의 변형에 대해 들었지만 개인적으로 사용하지 않았으므로 그것에 대해 많이 말할 수는 없습니다.


1
좋은 답변입니다 (+1). 공식적인 참고 문헌 (특히 부분적으로 인용 된 출처 "기계 학습 : 확률 적 관점"에 대한 참고 문헌)을 포함한다면 훨씬 더 나을 것입니다.
Aleksandr Blekh

답변 주셔서 감사합니다. 코드에서 오류를 수정 한 후 알고리즘이 올바르게 수렴되지만 잘린 데이터를 제외시킬 때만 발견되었습니다. 그렇지 않으면 그것은 건초로 간다. 나는 이것이 약간의 오류의 결과라고 생각합니다.
Good Guy Mike

실제로, 문제는 "이종성 잘림"을 처리한다는 것입니다. 즉 , 모든 관찰에 대해 만장일치 잘림 임계 값이 아니라 각 관찰마다 개별 잘림 지점 이 있습니다. 문헌에서 이러한 설정을 찾지 못했거나 찾을 수 없으므로 올바르게 해결하고 있는지 확인할 수 없습니다. 이 설정을 우연히 본 적이 있다면, 그 참고 문헌을 살펴보고 싶습니다! 나는
Good Guy Mike
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.