다른 모든 정책보다 나은 정책이 항상 하나 이상있는 이유는 무엇입니까?


15

강화 학습 : 소개. 둘째 판, 진행 ., 리처드 S. 서튼와 앤드류 G. 바토 (C) 2012, PP. 67-68.

강화 학습 과제를 해결한다는 것은 대략 장기적으로 많은 보상을 얻는 정책을 찾는 것을 의미합니다. 유한 MDP의 경우 다음과 같은 방법으로 최적의 정책을 정확하게 정의 할 수 있습니다. 가치 함수는 정책에 대한 부분적 순서를 정의합니다. 정책 π 정의는보다 더 나은 또는 정책과 동일합니다 π 의 기대 수익보다 크거나 그와 같은 경우 π 모든 국가에 대해. 즉, ππ 경우에만, vπ(s)vπ(s) , 모두 sS . 다른 모든 정책보다 나은 정책은 항상 하나 이상 있습니다. 이것이 최적의 정책입니다.

다른 모든 정책보다 나은 정책이 항상 하나 이상있는 이유는 무엇입니까?


Puterman의 "Markov Decision Processes"장 6.2에는 Banach의 고정 소수점 정리를 사용하는 매우 자세한 증명이 나와 있습니다.
Toghs

답변:


3

인용 된 부분을 지나면 동일한 단락이 실제로이 정책이 무엇인지 알려줍니다. 모든 정책에서 최선의 조치를 취하는 정책입니다. MDP에서 한 주에서 취한 조치는 다른 주에서 취한 조치에 대한 보상에 영향을 미치지 않으므로 주별로 정책을 최대화 할 수 있습니다.


이 답변이 완전히 틀리지 않습니까? 어떻게 국가별로 정책 상태를 최적화하면 최적의 정책으로 이어질 수 있습니까? 난 상태 통해 최적화하면 그리고 저 소요 S t + 1 에서 최적화 다음과 S의 t + 1 최적 값 함수에 이르게 V의 t + 1 그러나있는 다른 정책가 S t를 에 suboptimally 오퍼 S의 L 및 최적이 S l 의 값 함수는 V t + 1 보다 큽니다 . 그러한 거친 분석으로 어떻게 이것을 배제 할 수 있습니까?StSt+1St+1Vt+1StSlSlVt+1
MiloMinderbinder

최적의 정책 경우 @MiloMinderbinder 선택하는 S의 t + 1을 , 다음의 값 S의 t + 1 의 값보다 높은 S의 L . StSt+1St+1Sl
Don Reba

내 잘못이야. 오타가 수정 : '이 답변이 완전히 틀린가요? 상태별로 정책 상태를 최적화하면 최적의 정책으로 이어진다 고 어떻게 말할 수 있습니까? 난 상태 통해 최적화하면 그리고 날 소요 S의 t + 1 에서 최적화 다음과 S의 t + 1 최적 값 함수에 이르게 V의 t + 2S의 t + 2 이지만되는 다른 정책가 S t를 리드 비록 S l + 1에 차선책 이므로 S t + 1 의 값 함수StSt+1St+1Vt+2St+2StSl+1St+1이 정책에서는 보다 높지만 S t + 2 의 값 함수는 상태별로 상태를 최적화하여 찾은 정책보다 높습니다. 이것이 어떻게 당신을 배제합니까? ' Vl+1St+2
MiloMinderbinder

의 정의는 이것이 미래의 수익을 설명해야하기 때문에 처음부터 이런 일이 발생하지 못하게 할 것이라고 생각합니다 . V
Flying_Banana

그러면 질문은 다음과 같습니다. 왜 가 존재합니까? Banach Fixed Point Theorem :-)q
Fabian Werner

10

최적의 정책이 존재하는 것은 분명하지 않습니다. 이유를 확인하기 위해 value 함수는 정책 공간에서 부분적인 순서 만 제공합니다. 이것은 다음을 의미합니다.

ππvπ(s)vπ(s),sS

이는 부분적인 순서 일 뿐이므로 π 2의 두 정책 이 비교할 수없는 경우가있을 수 있습니다 . 즉, 상태 공간의 서브 세트가있다 (1)S (2) 그러한 :π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

이 경우 한 정책이 다른 정책보다 낫다고 말할 수 없습니다. 그러나 한정된 가치 함수를 갖는 유한 MDP를 다루는 경우 그러한 시나리오는 절대 발생하지 않습니다. 여러 개의 최적 정책이있을 수 있지만 정확히 하나의 최적 값 함수가 있습니다.

이를 증명하려면 Banach Fixed Point 정리를 이해해야합니다. 자세한 분석은를 참조하십시오 .


8

환경

우리는 다음의 설정을 고려하고 있습니다 :

  • 개별 동작
  • 이산 상태
  • 바운드 보상
  • 고정 정책
  • 무한한 지평선

V = max π V π ( s ) , s S V = V π

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

질문

모든 대해 동시에 (1)을 만족하는 하나 이상의 가 있음을 증명하는 방법은 무엇입니까? S SπsS

증거 개요

  1. 구조물 최적 방정식 우리가 식을 통해 정의에 해당한다는 2 단계에서 증명할 최적 값 함수의 임시 대리 정의로서 사용한다. (2).

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. 식 (4)와 식 (2)를 통해 최적의 값 함수를 정의하는 동등성을 도출하십시오.

    (사실 우리는 식 (2)에서 식 (4)를 구성했기 때문에 충분 함이 명백하기 때문에 증거에 필요한 방향 만 필요합니다.)

  3. 식 (4)에 대한 고유 한 솔루션이 있음을 증명하십시오.

  4. 2 단계에서는 3 단계에서 얻은 솔루션도 식 (2)에 대한 솔루션이므로 최적의 값 함수임을 알 수 있습니다.

  5. 최적의 값 함수에서 각 상태에 대한 식 (4)의 최대화 조치를 선택하여 최적의 정책을 복구 할 수 있습니다.

단계의 세부 사항

1

이후 , 우리가 . 임의의 존재한다면 되도록 우리 수 극대화 나은 정책을 선택 통해 .V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

1 단계를 따릅니다.

(<=)

즉, 가 만족시키는 경우 , .V~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

정의 최적 벨만 연산자 로서 따라서 우리의 목표는 이면 . 우리는 이것을 Puterman [1]에 따라 두 가지 결과를 결합하여 보여줍니다 .

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

a) 이면 입니다.V~TV~V~V

b) 이면 입니다.V~TV~V~V

증명:

ㅏ)

임의의 경우 , 여기에서 는 결정 규칙 (특정 시간의 행동 프로파일)입니다. 는 즉각적인 보상의 벡터 표현입니다 로부터 유도 되고 는 로부터 유도 된 전이 행렬 이다.π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

유도에 의해, 임의의 , 여기서 는 아래 의 단계 전이 행렬을 나타냅니다 .n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

이후 우리가 따라서 있습니다. 이 모든에 대해 보유 이래로 , 우리는 결론 b)

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

1 단계부터 수행합니다.

최적의 Bellman 연산자는 규범 의 축소입니다 ( cf. [2].L

증명 : 에 대해 여기서 (*)에서 s 최대F()-최대 ' g(')최대[F()-g()]

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

따라서 Banach 고정 소수점 정리에 따르면 에는 고유 한 고정 소수점이 있습니다.T

참고 문헌

[1] Puterman, Martin L ..“Markov 결정 과정 : 이산 확률 론적 동적 ​​프로그래밍.” (2016).

A. 라자 릭. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.