정책 반복 알고리즘이 최적의 정책 및 가치 기능으로 수렴하는 이유는 무엇입니까?


10

강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다.Vπ.

정책 반복 회수는 다음과 같습니다.

초기화 π 무작위로반복{이자형 V: =Vπ 현재 정책의 경우 bellman의 방정식을 풀고 현재 V로 설정하십시오.이자형 π(에스): =아르 자형미디엄엑스에스'에스(에스')V(에스')}

욕심 많은 알고리즘이 최적의 정책과 최적의 가치 함수로 이어지는 이유는 무엇입니까? (욕심 많은 알고리즘이 항상이를 보장하지는 않으며 지역 옵티마에 갇힐 수 있으므로 알고리즘의 최적성에 대한 증거를보고 싶었습니다).

또한 정책 반복은 클러스터링 또는 그라데이션 하강과 비슷한 것으로 보입니다. 현재 파라미터 설정으로 클러스터링을 최적화합니다. 그라디언트 디센트와 비슷하지만 일부 기능을 증가시키는 것으로 보이는 값을 선택하기 때문입니다. 이 두 가지 방법이 항상 최적의 최대 값으로 수렴되는 것은 아니며이 알고리즘이 이전에 언급 한 것과 어떻게 다른지 이해하려고했습니다.


이것들은 지금까지 내 생각입니다.

일부 정책 으로 시작한 다음 첫 번째 단계 후에 고정 정책에 대해 다음과 같이 말합니다.π1

Vπ1(s)=R(s)+γsPsπ1(s)(s)Vπ1(s)

V(1):=Vπ1(s)

여기서 V ^ {(1)}은 첫 번째 반복에 대한 값 함수입니다. 그런 다음 두 번째 단계 후에 값을 늘리기 위해 새로운 정책 를 선택합니다 . 이제 새로운 정책 알고리즘의 두 번째 단계를 수행하면 다음과 같은 불평등이 발생합니다.π2Vπ1(s)π2

R(s)+γsPsπ1(s)(s)Vπ1(s)R(s)+γsPsπ2(s)(s)Vπ1(s)

두 번째 단계에서 를 선택 하여 이전 단계에서 값 함수를 증가시킵니다 (즉, 개선 . 지금까지 를 선택 하면 V ^ {(1)} 만 증가 할 수 있다는 것이 분명합니다 . 선택하는 방법이기 때문에 반복 단계에서 혼란 . 반복하고 1 단계로 돌아 가면 새로운 정책 대해 를 다시 계산하기 때문에 실제로는 완전히 변경 됩니다. 다음을 제공합니다.π2V(1)π2π2V2π2

Vπ2(s)=R(s)+γsPsπ2(s)(s)Vπ2(s)

그러나 그것은 아닙니다 :

Vπ1(s)=R(s)+γsPsπ2(s)(s)Vπ1(s)

가 새로운 아닌 개선을 위해 선택 되었기 때문에 문제가되는 것 같습니다 . 기본적으로 문제는 가 를 수행하여 를 것입니다. 의 값 함수 인 경우 . 그러나 반복 단계에서 을 로 변경하지만 가 계산 될 때 가 계산되어 값 함수가 각 반복에서 단조롭게 향상되는 것을 보장하는 방법을 알 수 없습니다 가치 함수는π2V(1)Vπ2pi2R(s)+γsPsπ1(s)(s)Vπ1(s)π2pi1Vπ1Vπ1Vπ2π2Vπ1그러나 1 단계는 을 ( 는 이전 값 함수 만 개선 했기 때문에 ).Vπ1Vπ2π2


1
욕심은 알고리즘이 일반적으로 최적의 솔루션을 찾지 못한다는 것을 의미하지는 않습니다.
Regenschein

1
값 반복은 욕심 많은 알고리즘이 아닌 동적 프로그래밍 알고리즘입니다. 둘은 몇 가지 유사점을 공유하지만 차이점이 있습니다. stackoverflow.com/questions/13713572/…를 살펴보십시오 .
francoisr

@francoisr 아무도 저에게 그런 말을 한 적이 없습니다. 어쩌면 그것이 저에게 (불필요하게) 신비한 이유 일 것입니다. 저는 DP를 잘 알고 있습니다. 그래도 고마워! :)
피노키오

답변:


4

당신이 빠진 부분은 Vπ2Vπ1 주문할 수있는 것과 같은 이유로 보장됩니다 π2π1. 그것은 본질적으로 한 정책의 정의가 다른 정책보다 낫다는 것입니다. 모든 주에서 그 가치 기능이 크거나 같습니다. 최대화 조치를 선택하여이를 보장했습니다. 상태 값이 이전보다 더 나빠질 수는 없습니다. 더 나은 최대화 조치를 선택하기 위해 하나의 조치 선택 만 변경 한 경우에는 이미Vπ2(s) 그 상태는 이전보다 높을 것입니다 Vπ1(s).

생성 할 결과를 최대화하기로 선택한 경우 π2우리는 새로운 것이 무엇인지 모른다 Vπ2(s) 우리는 어떤 주에도있을 것이지만 s:Vπ2(s)Vπ1(s).

따라서 루프를 다시 돌아가서 계산 Vπ2 새 정책은 이전과 동일하거나 더 높은 값을 갖도록 보장하고 정책을 다시 업데이트 할 때 π3π2π1.


4

먼저 정책 반복 알고리즘이 작동하는 이유를 살펴 보겠습니다. 두 단계가 있습니다.

정책 평가 단계 :

vn=rdn+γPdnvn 선형 방정식 시스템의 일반적인 벡터 형식입니다.

여기, 용어 rdn,Pdn 즉각적인 보상과 전환 행렬의 해당 행입니다.

이 용어는 정책에 따라 다릅니다 Πn

위의 방정식 시스템을 풀면 다음과 같은 값을 찾을 수 있습니다. vn

정책 개선 단계 :

우리가 새로운 정책을 찾을 수 있다고 가정 Πn+1 그런

rdn+1+γPdn+1vnrdn+γPdnvnrdn+1[IγPdn+1]vn이것이 eqn이라고 말하십시오. 1

이제 새로운 정책에 따라 Πn+1, 우리는 찾을 수있어 vn+1=rdn+1+γPdn+1vn+1이것이 방정식 2라고 가정하십시오.

우리는 보여줄 것입니다 vn+1vn ;

즉, 본질적으로 모든 주에서 새로 선택된 정책 Πn+1 이전 정책에 비해 더 나은 가치를 제공합니다 Πn

증명:

방정식 2에서

[IγPdn+1]vn+1=rdn+1

에서, 1&2우리는

vn+1vn

기본적으로 값은 각 반복마다 단조 증가합니다.

이것이 왜 Policy Interation이 로컬 최대 값에 머물지 않는지를 이해하는 것이 중요합니다.

정책은 상태 행동 공간에 지나지 않습니다.

모든 정책 반복 단계에서 우리는 서로 다른 하나 이상의 상태 동작을 찾으려고 시도합니다. Πn+1Πn 그리고 경우 참조 rdn+1+γPdn+1vnrdn+γPdnvn. 조건이 만족되는 경우에만 새로운 선형 방정식 시스템에 대한 솔루션을 계산합니다.

취하다 ΠΠ# 세계 및 지역 최적입니다.

암시, vv#

알고리즘이 로컬 최적에 고정되어 있다고 가정하십시오.

이 경우 정책 개선 단계는 로컬 최적의 상태-작업 공간에서 멈추지 않습니다. Π#에 하나 이상의 상태 작업이 있으므로 Π 와 다른 Π# 더 높은 값을 산출 v 에 비해 v#

다른 말로하면

[IγPd]v[IγPd]v#

rd[IγPd]v#

rd+γPdv#v#

rd+γPdv#rd#+γPd#v#

따라서 정책 반복이 로컬 최적에서 멈추지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.