«policy-iteration» 태그된 질문

2
정책 반복 알고리즘이 최적의 정책 및 가치 기능으로 수렴하는 이유는 무엇입니까?
강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다.V∗V※V^*π∗π※\pi^*. 정책 반복 회수는 다음과 같습니다. Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}초기화 π 무작위로반복{엘이자형티 V: …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.