«markov-models» 태그된 질문

4
가치 반복과 정책 반복의 차이점은 무엇입니까?
강화 학습에서 정책 반복 과 가치 반복 의 차이점은 무엇 입니까? 내가 아는 한 가치 반복에서는 Bellman 방정식을 사용하여 최적의 정책을 해결하는 반면, 정책 반복에서는 무작위로 정책 π를 선택하고 해당 정책의 보상을 찾습니다. 내 의심은 PI에서 임의의 정책 π를 선택하는 경우 여러 임의의 정책을 선택하더라도 어떻게 최적의 정책이 보장됩니까?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.