인공 지능 rl-an-introduction

REINFORCE 알고리즘의 할인율이 두 번 나타나는 이유는 무엇입니까?

저는 Richard S. Sutton과 Andrew G. Barto의 강화 학습 : 소개 (2017 년 11 월 5 일 초안 작성) 책을 읽고있었습니다 . 271 페이지에, 일시적인 Monte-Carlo Policy-Gradient Method의 의사 코드가 제시되어 있습니다. 이 의사 코드를 보면 할인 상태가 업데이트 상태에서 한 번, 반환 내에서 두 번째로 할인율이 2 번 나타나는 …

11 reinforcement-learning algorithm rl-an-introduction reinforce

«rl-an-introduction» 태그된 질문