기대 최대화 알고리즘이 로컬 최적으로 수렴하도록 보장되는 이유는 무엇입니까?


24

EM 알고리즘에 대한 몇 가지 설명을 읽었습니다 (예 : Bishop의 패턴 인식 및 기계 학습 및 기계 학습에 대한 Roger 및 Gerolami 첫 번째 과정). EM의 파생은 괜찮습니다. 이해합니다. 또한 알고리즘이 무언가에 적용되는 이유를 이해합니다. 각 단계에서 결과를 개선하고 가능성은 1.0로 제한됩니다. 따라서 간단한 사실 (함수가 증가하고 제한되면 수렴)을 사용하여 알고리즘이 수렴한다는 것을 알고 있습니다. 몇 가지 해결책.

그러나 그것이 지역 최소값인지 어떻게 알 수 있습니까? 각 단계에서 하나의 좌표 (잠재 변수 또는 매개 변수) 만 고려하므로 로컬 최소값이 한 번에 두 좌표로 이동해야하는 것과 같은 것을 놓칠 수 있습니다.

이것은 EM의 예인 일반적인 종류의 언덕 오르기 알고리즘과 비슷한 문제라고 생각합니다. 따라서 일반적인 언덕 오르기 알고리즘의 경우 함수 f (x, y) = x * y에 대해이 문제가 있습니다. (0, 0) 지점에서 시작하면 한 번에 두 방향을 모두 고려하여 0 값에서 위쪽으로 이동할 수 있습니다.


3
가능성은 고정 분산에만 적용됩니다. 즉, 이항 상황에서 분산은 (1) . 또는 분산이 알려진 것으로 가정되는 경우 가우시안 상황에서. 분산을 알 수없고 추정해야하는 경우 가능성은 제한되지 않습니다. 또한 EM 알고리즘에는 적어도 잦은 통계 학자에게는 누락 및 매개 변수가 일반적으로 분리되어 있지만 표면에는 실제로 새들이있을 수 있습니다.
StasK

@Stask 나는 고정 된 분산으로도 가능성이 일반적으로 확실하지 않다고 확신합니다. 특정 가족으로 제한하고 있습니까?
Glen_b-복귀 모니카

답변:


27

EM은 지역 최소 수렴을 보장하지 않습니다. 매개 변수와 관련하여 기울기가 0 인 지점으로 수렴하는 것만 보장됩니다. 따라서 실제로 안장 지점에 갇힐 수 있습니다.


1
예를 들어, 여기 20, 38 페이지 , p. 여기서 85 -Amazon 리더에서 "새들 포인트"를 사용해보십시오.
StasK

13

우선, EM이 local min , local max 또는 우도 함수 의 안 장점 으로 수렴 할 수 있습니다. 더 정확하게 말하면, Tom Minka가 지적했듯이 EM은 기울기0 인 지점으로 수렴 합니다 .

나는 이것을 보는 두 가지 방법을 생각할 수있다. 첫 번째 견해는 순수한 직관이며, 두 번째 견해는 공식적인 증거의 스케치입니다. 먼저 EM의 작동 방식에 대해 간단히 설명하겠습니다.

기대 최대화 (EM) 는 반복 에서 순차 바운드 최적화 기법 으로, 우도 함수 L ( θ )에 (하한) b t ( θ ) 를 구성한 다음 경계를 최대화하여 새로운 솔루션 θ t = arg max θ b t ( θ ) 을 수정하고 새 솔루션이 변경되지 않을 때까지이 작업을 계속 수행하십시오.(θ)(θ)θ=인수최대θ(θ)

그래디언트 상승으로 기대 극대화

각 반복에서, , EM는 결합해야 B의 t는 우도 함수 접촉 L을 이전 반복의 용액에, 즉 θ t - 1 그 기울기도 동일한 의미한다; 즉 g = b t ( θ t - 1 ) = L ( θ t - 1 ) 입니다. 그래서, EM은 적어도 때문에 그라데이션 상승 좋은으로 θ t는 좋은으로 적어도이다 θ t - 1θ1=(θ1)=(θ1)θ . 다른 말로:θ1+η

EM은 수렴한다면 다음 θ *은 기울기가 너무 상승 및 EM 만족 (제로 기울기 값 포함) 오르막 구배 용액 중 공유 된 속성 수렴 점이다.θθ

공식적인 증거 스케치

(1)(θ)(θ)=0.
(2)(θ)=(θ).
(1)(2)θ=인수최대θ(θ)(θ)=0(θ)=0
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.