3
REINFORCE 알고리즘의 할인율이 두 번 나타나는 이유는 무엇입니까?
저는 Richard S. Sutton과 Andrew G. Barto의 강화 학습 : 소개 (2017 년 11 월 5 일 초안 작성) 책을 읽고있었습니다 . 271 페이지에, 일시적인 Monte-Carlo Policy-Gradient Method의 의사 코드가 제시되어 있습니다. 이 의사 코드를 보면 할인 상태가 업데이트 상태에서 한 번, 반환 내에서 두 번째로 할인율이 2 번 나타나는 …