Hamilton-Jacobi-Bellman 방정식 풀기; 최적을 위해 필요하고 충분한가?


13

다음의 미분 방정식 여기서 는 상태이고 는 제어 변수입니다. 해결책은 여기서 은 주어진 초기 상태입니다.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

이제 다음 프로그램 여기서 \ rho> 0 은 시간 기본 설정을 나타내고 V (\ cdot) 는 값이고 F (\ cdot) 목적 함수. 전형적인 경제적 인 적용은 최적 성장의 Ramsey-Cass-Koopmans 모델입니다. Hamilton-Jacobi-Bellman 방정식은 \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ in [0, \ infty). \ end {align}

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

V 용 HJB를 해결했다고 가정 해보십시오 V. 그런 다음 \ begin {align} u ^ * = \ arg \ max_u [F (x, u) + V '(x) f (x, u)]에 의해 최적의 제어가 제공됩니다 . \ end {align}

u=argmaxu[F(x,u)+V(x)f(x,u)].
상태와 제어에 대한 최적의 궤적을 얻습니다. {(x(t),u(t)):t[0,)} .

위키 기사는 말한다

...하지만 전체 상태 공간에서 풀렸을 때 HJB 방정식은 최적의 조건이 필요합니다.

발의안 3.2.1의 Bertsekas (2005) Dynamic Programming and Optimal Control , Vol 1, 3rd ed에서 그는 V 에 대한 해답 이 최적의 비용 함수이고 관련 u 가 최적 이라고 언급합니다 . 그러나 그는 그것을 분명히 정리 정리로 선언했다.

실제로, 나는 단지 HJB를 풀고 관련 상태 및 제어 궤적을 복구했다면, 추가적인 최적 조건에 대해 걱정할 필요가 없는지 확인하고 싶습니다.

해결책

나는 시도한다

나는 HJB 방정식 자체에 의해 최대 원리로부터 필요한 조건을 도출 할 수 있다고 생각합니다.

hamiltonian 정의

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

우리는

ρV(x)=maxuH(x,u,V(x))

이것은

ρV(x)=H(x,u,V(x)).

과 함께 임의의 함수 을 . 이제 q:[0,)Rq(0)=limtq(t)=0

x=x+εq

여기서 은 매개 변수입니다. 이 단어를 최대화 된 하밀 토니 아어에 연결하면 εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

에서 우리는 최적의 솔루션을 가지고있다. 따라서 과 차별화 하여 1 차 주문 조건 ε=0ε

ρVq=Hxq+HVVq.

이제 인접 변수를 정의하십시오

λ=V(x).

시간이 지남에 따라 차별화

λ˙=Vx˙.

그 양해

HV=f(x,u)=x˙.

모든 것을 하면

ρλ=Hx+λ˙.

그게 다야. 따라서 HJB를 해결하는 것은 실제로 최적의 상태로 필요하고 충분합니다 (여기서는 생략 됨). 누군가 그것을 위키에 추가해야합니다. 그러한 문제에 대해 생각하는 사람들의 시간을 절약 할 수 있습니다.

그러나 횡단 조건 이 (가) 없습니다.

limteρtλ(t)=0

II 시도

기능 정의

J(u):=0eρtF(x,u)dt

참고 의 정의에 의해 입니다. 보수 함수에 중립 항을 추가합니다.

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

rhs에 올바른 용어의 일부로 통합하면

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

해당 용어를

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

정의

x=x+εqu=u+εp

이것은

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

최대 대한 FOCJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

이후 및 미 제약이다 우리 있어야 qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

필요하고 충분한 조건을 아직 식별 했습니까?
Jamzy

이것은 어떤 경제적 맥락에서 나옵니까?
Stan Shunpike


1
이 스레드는 실제로 econ에 연결되어 있지 않기 때문에 math.stackexchange.com에 더 적합하다고 생각합니다 . 모드는 그것을 전송할 수 있습니다.
clueless

나는 여기에 무엇이 있는지 잘 모르겠습니다. Bertsekas가 HJB를 해결하는 데 충분하다면 "추가적인 최적 조건에 대해 걱정할 필요가 없습니다". HJB가 해결되지 않은 경우 "필요하고 충분한"에 대한 "충분한"만 발생합니다.이 경우 "해결책이 없음을 의미하지는 않습니다". 그건 그렇고, 당신의 시도 I과 II는 여기에 귀중한 내용입니다-첫 번째는 HJB와 최적 제어 사이의 링크를 보여주고, 두 번째는 최적 제어 FOC를 도출하는 방법을 보여줍니다.
Alecos Papadopoulos

답변:


1

(이것은 아마도 주석으로 간주되어야합니다.)

HJB 방정식을 풀면 최적의 해를 얻는 것으로 충분합니다. 따라서 귀하는 귀하의 질문에 대답하는 것으로 생각되는 "다른 최적 조건에 대해 걱정하지 마십시오".

정리의 "필요한"구성 요소에 대해 우려하는 것 같습니다. 성명서의 필요성 측면은 다음과 같습니다. 최적 솔루션이있는 경우 HJB 방정식에 대한 솔루션이 있어야합니다.

나는이 특정 문제로 일하지는 않았지만 일반적으로 대답은 차별화 할 수있는 함수 V를 기대하지 않는다는 것입니다. 따라서 방정식에 대한 해결책은 없습니다. 대신, 일반화 된 파생 상품을보고 HJB 방정식을 부등식으로 변환해야합니다. 이 경우 "점도 솔루션"을 얻을 수 있습니다. 일반화 된 파생 상품을 사용하도록 확장하면 그러한 솔루션이 항상 존재 함을 증명할 수 있습니다. 귀하의 증거를 밝히면 차별화 가능성을 가정 할 때 필요 조건에 도움이되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.