3
다른 모든 정책보다 나은 정책이 항상 하나 이상있는 이유는 무엇입니까?
강화 학습 : 소개. 둘째 판, 진행 ., 리처드 S. 서튼와 앤드류 G. 바토 (C) 2012, PP. 67-68. 강화 학습 과제를 해결한다는 것은 대략 장기적으로 많은 보상을 얻는 정책을 찾는 것을 의미합니다. 유한 MDP의 경우 다음과 같은 방법으로 최적의 정책을 정확하게 정의 할 수 있습니다. 가치 함수는 정책에 대한 부분적 …