통계 및 빅 데이터 policy-iteration

정책 반복 알고리즘이 최적의 정책 및 가치 기능으로 수렴하는 이유는 무엇입니까?

강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다.V∗V※V^*π∗π※\pi^*. 정책 반복 회수는 다음과 같습니다. Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}초기화 π 무작위로반복{엘이자형티 V: …

10 reinforcement-learning policy-iteration

«policy-iteration» 태그된 질문