칼만 필터의 가능성이 더 부드러운 결과 대신 필터 결과를 사용하여 계산되는 이유는 무엇입니까?

11

나는 칼만 필터를 매우 표준적인 방법으로 사용하고 있습니다. 시스템은 상태 방정식 및 관측 방정식 됩니다. $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

교과서는 Kalman 필터를 적용하고 "일단 예측" (또는 "필터링 된 추정치")을 얻은 후에이를 사용하여 우도 함수를 계산해야한다고 가르칩니다 . $\hat{x}_{t|t-1}$

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

내 질문은 다음과 같습니다. 왜 우도 함수 는 "평활 추정" 아닌 "필터링 된 추정" $\hat{x}_{t|t-1}$ 하여 계산 됩니까? 아니다 상태 벡터의 더 나은 추정? $\hat{x}_{t|T}$ $\hat{x}_{t|T}$

likelihood kalman-filter

— 구스타보 아마 란 테
소스

보다 유익한 제목을 편집했습니다.

— Juho Kokkala

5

질문에 대답하기 위해 : 평활 밀도를 사용할 수 있습니다. 그러나 당신은 할 필요가 없습니다. Jarle Tufto의 답변에는 사용중인 분해가 있습니다. 그러나 다른 사람들이 있습니다.

칼만 재귀 사용

여기에서는

에프 ({와이}_{1}, \dots, {와이}_{엔}) = 에프 ({와이}_{1}) \prod_{나는 = 2}^{엔} 에프 ({와이}_{나는} | {와이}_{1}, \dots, {와이}_{나는 - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

그러나 평균과 분산이 일반적으로 확률 분포를 완전히 정의하는 것은 아닙니다. 다음은 분포 에서 조건부 우도 필터링 분포를 이동하는 데 사용하는 분해입니다. : $f(x_{i-1}|y_1,\ldots,y_{i-1})$ $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & 에프 ({와이}_{나는} | {와이}_{1}, \dots, {와이}_{나는 - 1}) = \iint 에프 ({와이}_{나는} | {엑스}_{나는}) 에프 ({엑스}_{나는} | {엑스}_{나는 - 1}) 에프 ({엑스}_{나는 - 1} | {와이}_{1}, \dots, {와이}_{나는 - 1}) 디 {엑스}_{나는} 디 {엑스}_{나는 - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

여기서 은 모델의 상태 전이 밀도 ... 일부이고 는 다시 모델의 관찰 밀도입니다. 귀하의 질문에 이것을 및 로 작성하십시오. 그건 같은거야. $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

한 단계 앞선 상태 예측 분포를 얻으면 그것은 . 다시 통합하면 (1)을 완전히 얻습니다. 당신은 당신의 질문에 그 밀도를 완전히 기록합니다. 같은 것입니다. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

여기서는 확률 분포의 분해와 모형에 대한 가정 만 사용합니다. 이 가능성 계산은 정확한 계산입니다. 이 작업을 더 나쁘게 수행하는 데 사용할 수있는 재량은 없습니다.

EM 알고리즘 사용

내 지식으로는, 이런 종류의 상태 공간 모델에서 가능성을 직접 평가하는 다른 방법은 없습니다. 그러나 다른 기능을 평가하여 최대한 가능성 추정을 수행 할 수 있습니다. EM 알고리즘을 사용할 수 있습니다. 기대 단계 (E-Step)에서 여기

\int 에프 ({엑스}_{1}, \dots, {엑스}_{엔} | {와이}_{1}, \dots {와이}_{엔}) 로그 에프 ({와이}_{1}, \dots, {와이}_{엔}, {엑스}_{1}, \dots, {엑스}_{엔}) 디 {엑스}_{1 : 엔} = {이자형}_{에스 미디엄 영형 영형 티 h} [로그 에프 ({와이}_{1}, \dots, {와이}_{엔}, {엑스}_{1}, \dots, {엑스}_{엔})] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ "완전한 데이터"일 가능성이 있으며, 조인트 평활 밀도와 관련하여 그 로그를 기대하고 있습니다. 이 완전한 데이터 가능성에 대한 로그를 취하고, 용어를 합계로 나누고, 기대 연산자의 선형성 때문에 한계 평활 분포 (예 : 평활도 분포)에 대한 기대치를 얻는 경우가 종종 발생합니다. 당신은 당신의 질문에 언급).

다른 것들

나는 EM이 가능성을 극대화하기위한 "보다 안정적인"방법이라는 곳에서 읽었지만,이 점이 실제로 잘 논증되는 것을 본 적이없고이 단어 "stable"이 전혀 정의 된 것도 본 적이 없지만 실제로 이것을 더 조사하지 않았습니다. 이 알고리즘들 중 어느 것도 로컬 / 글로벌 최대치 문제를 해결하지 못합니다. 나는 개인적으로 칼만을 습관적으로 더 자주 사용하는 경향이 있습니다.

평활화 된 상태 추정치가 일반적으로 필터링보다 작은 분산을 갖는 것이 사실이므로 이에 대해 약간의 직관을 갖는 것이 옳지 만 실제로 상태를 사용하지는 않습니다. 최대화하려는 가능성은 상태의 기능이 아닙니다.

— 테일러
소스

KF와 EM은 어떻게 다릅니 까? 그들은 막연하게 비슷한 방식으로 같은 일을합니다.

— Mitch

1

@ 미치 그것은 아마도 의견 이상의 가치가있는 것입니다. KF와 함께 사용하는 범용 옵티 마이저와 사용하는 EM 유형에 따라 다릅니다. 나는 그것을 보지 않고 너무 확신하지 않을 것입니다.

— Taylor

7

일반적으로 제품 규칙에 따라 정확한 가능성은 상태 공간 모델의 가정 에서 과거 관측치에 대한 각 의 기대 벡터 및 분산 행렬은 로 표현 될 수 있습니다. 및

에프 ({와이}_{1}, \dots, {와이}_{엔}) = 에프 ({와이}_{1}) \prod_{나는 = 2}^{엔} 에프 ({와이}_{나는} | {와이}_{1}, \dots, {와이}_{나는 - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

\begin{aligned} 이자형 ({와이}_{나는} | {와이}_{1}, \dots, {와이}_{나는 - 1}) & = 이자형 (H {엑스}_{티} + ㅏ 지_{티} + 승_{티} | {와이}_{1}, \dots, {와이}_{나는 - 1}) \\ = H 이자형 ({엑스}_{티} | {와이}_{1}, \dots, {와이}_{나는 - 1}) + ㅏ 지_{티} + 이자형 승_{티} \\ = H {\hat{엑스}}_{티 | 티 - 1} + ㅏ 지_{티}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$

\begin{aligned} V ㅏ 아르 자형 ({와이}_{나는} | {와이}_{1}, \dots, {와이}_{나는 - 1}) & = V ㅏ 아르 자형 (H {엑스}_{티} + ㅏ 지_{티} + 승_{티} | {와이}_{1}, \dots, {와이}_{나는 - 1}) \\ = H V ㅏ 아르 자형 ({엑스}_{티} | {와이}_{1}, \dots, {와이}_{나는 - 1}) H^{'} + V ㅏ 아르 자형 승_{티} \\ = H 피_{티 | 티 - 1} H^{'} + 아르 자형 . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$ 따라서 이것은 평활화 된 추정값을 계산하지 않고도 정확한 가능성을 제공합니다.

물론 미지의 상태에 대한 더 나은 추정치 인 평활화 된 추정치를 사용할 수 있지만, 이것은 우도 함수를 제공하지 않습니다. 실제로 의 관측 값을 사용하여 자체 예상 값을 추정하므로 결과 추정치에 약간의 편차가 생길 수 있습니다. $y_i$

— 자렐 투 프토
소스

0

스무딩 분포가 사용되지 않는 (일반적으로) 효율성에 대한 "왜"에 대한 더 나은 대답은 생각합니다. 원칙적으로 (매끄러운) 한계 가능성을 다음과 같이 탈퇴 식으로 계산하는 것이 간단합니다. 관측치 j를 삭제하고 나머지 데이터에 대해 Kalman을 더 부드럽게 실행하십시오. 그런 다음 보이지 않는 y (j)의 가능성을 평가하십시오. 모든 j에 대해 이것을 반복하십시오. 로그 우도를 요약하십시오. 이보다 빠른 버전은 (랜덤 화) 보류 샘플 블록 (예 : k- 폴드 CV)과 함께 작동합니다. 이 체계에는 필요에 따라 측정 업데이트를 임의로 건너 뛸 수있는보다 일반적인 칼만 필터 / 스무더 구현이 필요합니다. 역방향 / 스무딩 패스는 측정 (RTS 알고리즘)에 액세스하지 않으며 동일하게 유지됩니다.

시계열이 "충분히 긴"경우 필터링 가능성이 초기 과도 현상을 "번 오프"하므로이 작업을 수행하는 데 유용한 이점이 거의 없습니다. 그러나 데이터 집합이 짧으면 값 비싼 평활 가능성이 그만한 가치가 있습니다. 고정 지연이 더 매끄러 울수록 중간 솔루션이 될 수 있습니다.

— 삼나무
소스