다음의 미분 방정식
여기서 는 상태이고 는 제어 변수입니다. 해결책은
여기서 은 주어진 초기 상태입니다.
x˙(t)=f(x(t),u(t))
xux(t)=x0+∫t0f(x(s),u(s))ds.
x0:=x(0)
이제 다음 프로그램
여기서 \ rho> 0 은 시간 기본 설정을 나타내고 V (\ cdot) 는 값이고 F (\ cdot) 목적 함수. 전형적인 경제적 인 적용은 최적 성장의 Ramsey-Cass-Koopmans 모델입니다. Hamilton-Jacobi-Bellman 방정식은
\ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ in [0, \ infty). \ end {align}
s.t. V(x0):=maxu∫∞0e−ρtF(x(t),u(t))dtx˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V(⋅)F(⋅)ρV(x)=maxu[F(x,u)+V′(x)f(x,u)],∀t∈[0,∞).
V 용 HJB를 해결했다고 가정 해보십시오 V. 그런 다음 \ begin {align} u ^ * = \ arg \ max_u [F (x, u) + V '(x) f (x, u)]에 의해 최적의 제어가 제공됩니다
. \ end {align}
u∗=argmaxu[F(x,u)+V′(x)f(x,u)].
상태와 제어에 대한 최적의 궤적을 얻습니다.
{(x∗(t),u∗(t)):t∈[0,∞)} .
위키 기사는 말한다
...하지만 전체 상태 공간에서 풀렸을 때 HJB 방정식은 최적의 조건이 필요합니다.
발의안 3.2.1의 Bertsekas (2005) Dynamic Programming and Optimal Control , Vol 1, 3rd ed에서 그는 V 에 대한 해답 이 최적의 비용 함수이고 관련 u∗ 가 최적 이라고 언급합니다 . 그러나 그는 그것을 분명히 정리 정리로 선언했다.
실제로, 나는 단지 HJB를 풀고 관련 상태 및 제어 궤적을 복구했다면, 추가적인 최적 조건에 대해 걱정할 필요가 없는지 확인하고 싶습니다.
해결책
나는 시도한다
나는 HJB 방정식 자체에 의해 최대 원리로부터 필요한 조건을 도출 할 수 있다고 생각합니다.
hamiltonian 정의
H(x,u,V′(x)):=F(x,u)+V′(x)f(x,u)
우리는
ρV(x)=maxuH(x,u,V′(x))
이것은
ρV(x)=H(x,u∗,V′(x)).
과 함께 임의의 함수 을 . 이제
q:[0,∞)→Rq(0)=limt→∞q(t)=0
x=x∗+εq
여기서 은 매개 변수입니다. 이 단어를 최대화 된 하밀 토니 아어에 연결하면
ε∈R
ρV(x∗+εq)=H(x∗+εq,u∗,V′(x∗+εq)).
에서 우리는 최적의 솔루션을 가지고있다. 따라서 과 차별화 하여 1 차 주문 조건
ε=0ε
ρV′q=Hxq+HV′V′′q.
이제 인접 변수를 정의하십시오
λ=V′(x).
시간이 지남에 따라 차별화
λ˙=V′′x˙.
그 양해
HV′=f(x,u)=x˙.
모든 것을 하면
ρλ=Hx+λ˙.
그게 다야. 따라서 HJB를 해결하는 것은 실제로 최적의 상태로 필요하고 충분합니다 (여기서는 생략 됨). 누군가 그것을 위키에 추가해야합니다. 그러한 문제에 대해 생각하는 사람들의 시간을 절약 할 수 있습니다.
그러나 횡단 조건
이 (가) 없습니다.
limt→∞e−ρtλ(t)=0
II 시도
기능 정의
J(u):=∫∞0e−ρtF(x,u)dt
참고
의 정의에 의해 입니다. 보수 함수에 중립 항을 추가합니다.
∫∞0e−ρtλ[f(x,u)−x˙]dt=0
x˙=f(x,u)J(u)=∫∞0e−ρt[F(x,u)+λf(x,u)]dt−∫∞0e−ρtλx˙dt=∫∞0e−ρtH(x,u,λ)−∫∞0e−ρtλx˙dt
rhs에 올바른 용어의 일부로 통합하면
∫∞0e−ρtλx˙dt=[e−ρtλ(t)x(t)]∞0−∫∞0e−ρtx(λ˙−ρλ)dt
해당 용어를
J(u)=∫∞0e−ρt[H(x,u,λ)+x(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)x(t)+λ(0)x(0)
정의
xu=x∗+εq=u∗+εp
이것은
J(ε)=∫∞0e−ρt[H(x∗+εq,u∗+εp,λ)+(x∗+εq)(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)[x∗(t)+εq(t)]+λ(0)x(0)
최대 대한 FOCJε=0
Jε=∫∞0e−ρt[Hxq+Hup+q(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)q(t)=0
이후 및 미 제약이다 우리 있어야
qp
HuHxlimt→∞e−ρtλ(t)=0=ρλ−λ˙=0