환경
우리는 다음의 설정을 고려하고 있습니다 :
- 개별 동작
- 이산 상태
- 바운드 보상
- 고정 정책
- 무한한 지평선
V ∗ = max π V π ( s ) , ∀ s ∈ S V ∗ = V π ∗
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
질문
모든 대해 동시에 (1)을 만족하는 하나 이상의 가 있음을 증명하는 방법은 무엇입니까? S ∈ Sπ∗s∈S
증거 개요
구조물 최적 방정식 우리가 식을 통해 정의에 해당한다는 2 단계에서 증명할 최적 값 함수의 임시 대리 정의로서 사용한다. (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
식 (4)와 식 (2)를 통해 최적의 값 함수를 정의하는 동등성을 도출하십시오.
(사실 우리는 식 (2)에서 식 (4)를 구성했기 때문에 충분 함이 명백하기 때문에 증거에 필요한 방향 만 필요합니다.)
식 (4)에 대한 고유 한 솔루션이 있음을 증명하십시오.
2 단계에서는 3 단계에서 얻은 솔루션도 식 (2)에 대한 솔루션이므로 최적의 값 함수임을 알 수 있습니다.
최적의 값 함수에서 각 상태에 대한 식 (4)의 최대화 조치를 선택하여 최적의 정책을 복구 할 수 있습니다.
단계의 세부 사항
1
이후 , 우리가 . 임의의 존재한다면 되도록 우리 수 극대화 나은 정책을 선택 통해 .V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
1 단계를 따릅니다.
(<=)
즉, 가 만족시키는 경우 , .V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
정의 최적 벨만 연산자 로서
따라서 우리의 목표는 이면 . 우리는 이것을 Puterman [1]에 따라 두 가지 결과를 결합하여 보여줍니다 .
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a) 이면 입니다.V~≥TV~V~≥V∗
b) 이면 입니다.V~≤TV~V~≤V∗
증명:
ㅏ)
임의의 경우 ,
여기에서 는 결정 규칙 (특정 시간의 행동 프로파일)입니다. 는 즉각적인 보상의 벡터 표현입니다 로부터 유도 되고 는 로부터 유도 된 전이 행렬 이다.π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
유도에 의해, 임의의 ,
여기서 는 아래 의 단계 전이 행렬을 나타냅니다 .n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
이후
우리가
따라서 있습니다. 이 모든에 대해 보유 이래로 , 우리는 결론
b)
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
1 단계부터 수행합니다.
삼
최적의 Bellman 연산자는 규범 의 축소입니다 ( cf. [2].L∞
증명 : 에 대해
여기서 (*)에서
s 최대의F()-최대 ' g(')≤최대[F()-g()]
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
따라서 Banach 고정 소수점 정리에 따르면 에는 고유 한 고정 소수점이 있습니다.T
참고 문헌
[1] Puterman, Martin L ..“Markov 결정 과정 : 이산 확률 론적 동적 프로그래밍.” (2016).
A. 라자 릭. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf