새로운 관찰 스트림으로 MLE을 재귀 적으로 업데이트


15

일반적인 질문

우리는 IID 데이터 말해봐 x1 , ... 우리는 재귀의 최대 우도 추정 계산하려면 스트리밍. \ boldsymbol {\ 세타} . 즉, \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), 우리는 새로운 x_n 을 관찰하고 어떻게 든 추정치 \ hat {\ boldsymbol {\ theta}}을 점진적으로 업데이트하고자합니다 처음부터 시작하지 않고 _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} 이것에 대한 일반적인 알고리즘이 있습니까?x2f(x|θ)θθ N - 1 = ARG 최대 θ R의 P , N - 1 Π가 나는 = 1 F를 ( X

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ N - 1 ,
θ^n1,xnθ^n

장난감 예

만약 엑스1 , 엑스2 ... (엑스|μ,1) 다음

μ^1=11나는=11엑스나는μ^=1나는=1엑스나는,
그래서
μ^=1[(1)μ^1+엑스].


6
이 문제의 역을 잊지 마십시오. 기존 관측치가 삭제 될 때 추정기를 업데이트합니다.
Hong Ooi

재귀 최소 제곱 (RLS) 은이 문제의 특정 인스턴스에 대한 (매우 유명한) 솔루션입니다. 일반적으로 확률 적 필터링 문헌이 조사에 유용 할 것이라고 생각합니다.
jhin

답변:


13

충분 함의 개념 , 특히 최소한의 통계를 참조하십시오 . 대부분의 경우 주어진 표본 크기에서 추정값을 계산하려면 전체 표본이 필요합니다. 단 하나의 표본보다 작은 표본을 업데이트하는 간단한 방법은 없습니다 (예 : 편리한 일반 결과는 없음).

분포가 기하 급수적 인 경우 (및 다른 경우에는 제복이 깔끔한 예라면) 많은 경우에 원하는 방식으로 업데이트 할 수있는 충분한 통계가 있습니다 (즉, 일반적으로 사용되는 여러 분포를 사용하면 빠른 업데이트).

계산하거나 업데이트하는 직접적인 방법을 모르는 한 가지 예는 Cauchy 분포의 위치에 대한 추정치입니다 (예 : 단위 스케일을 사용하여 문제를 간단한 1 모수 문제로 만들기). 그러나 내가 알지 못했던 더 빠른 업데이트가있을 수 있습니다. 업데이트 사례를 고려하여 실제로 한 번 이상 살펴본 적이 없습니다.

반면에 수치 최적화 방법을 통해 얻은 MLE를 사용하면 일반적으로 이전 추정치가 업데이트 된 추정치에 매우 가깝기 때문에 이전 추정치가 좋은 출발점이 될 수 있습니다. 그런 의미에서 적어도 빠른 업데이트가 종종 가능해야합니다. 그럼에도 불구하고 이것은 일반적인 경우는 아닙니다. 여러 모달 우도 함수 (다시 말해서 Cauchy 참조)에서 새로운 관측은 이전 모드와의 거리가 멀어도 가장 높은 모드로 이어질 수 있습니다. 가장 큰 몇 가지 모드 중 많은 모드가 많이 바뀌지 않았으며 가장 높은 모드는 변경 될 수 있습니다).


1
감사! MLE가 미드 스트림 모드를 전환 할 수 있다는 점은 이것이 왜 일반적으로 어려운지 이해하는 데 특히 도움이됩니다.
jcz

1
위의 단위 규모 Cauchy 모델과 데이터 (0.1,0.11,0.12,2.91,2.921,2.933)를 통해이를 직접 확인할 수 있습니다. 모드의 위치에 대한 로그 우도는 0.5와 2.5에 가까우며 (약간) 더 높은 피크는 0.5에 가까운 것입니다. 이제 다음 관측치 10과 두 피크 각각의 모드가 거의 움직이지 않지만 두 번째 피크는 이제 상당히 높아집니다. 그라디언트 디센트는 그럴 때 도움이되지 않습니다. 다시 시작하는 것과 거의 같습니다. 모집단이 위치가 다른 두 개의 유사한 크기의 하위 그룹이 혼합 된 경우 이러한 상황이 발생할 수 있습니다. ... ctd
Glen_b-복지 모니카

ctd ... 비교적 큰 샘플에서도. 올바른 상황에서 모드 전환이 상당히 자주 발생할 수 있습니다.
Glen_b-복지 모니카

다중 양식을 방지하는 조건은 모든 대한 매개 변수 벡터에 대해 가능성이 로그 오목해야한다는 것 입니다. 그러나 이는 모델에 대한 제한을 의미합니다. n
Yves

그렇습니다. 나는 그 답에 대해 토론할지 여부에 대해 나 자신과 토론했다.
Glen_b-복지 모니카

4

기계 학습에서는이를 온라인 학습 이라고합니다 .

@Glen_b가 지적했듯이 모든 이전 데이터에 액세스 할 필요없이 MLE을 업데이트 할 수있는 특별한 경우가 있습니다. 그가 지적했듯이 MLE를 찾는 일반적인 해결책이 있다고 생각하지 않습니다.

근사 솔루션 을 찾기위한 상당히 일반적인 접근 방식은 확률 적 경사 하강과 같은 것을 사용하는 것입니다. 이 경우, 각 관측치가 들어 오면이 개별 관측치에 대한 기울기를 계산하고 매개 변수 값을이 방향으로 매우 소량 이동합니다. 특정 조건 하에서 우리는 이것이 높은 확률로 MLE의 인근 지역으로 수렴 함을 보여줄 수 있습니다. 스텝 크기를 줄이면 이웃이 더 단단해 지지만 수렴에 더 많은 데이터가 필요합니다. 그러나 이러한 확률 적 방법은 일반적으로 폐쇄 형 양식 업데이트보다 우수한 성능을 얻기 위해 훨씬 더 많은 조정을 요구합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.