«rl-an-introduction» 태그된 질문

3
REINFORCE 알고리즘의 할인율이 두 번 나타나는 이유는 무엇입니까?
저는 Richard S. Sutton과 Andrew G. Barto의 강화 학습 : 소개 (2017 년 11 월 5 일 초안 작성) 책을 읽고있었습니다 . 271 페이지에, 일시적인 Monte-Carlo Policy-Gradient Method의 의사 코드가 제시되어 있습니다. 이 의사 코드를 보면 할인 상태가 업데이트 상태에서 한 번, 반환 내에서 두 번째로 할인율이 2 번 나타나는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.