4
가치 반복과 정책 반복의 차이점은 무엇입니까?
강화 학습에서 정책 반복 과 가치 반복 의 차이점은 무엇 입니까? 내가 아는 한 가치 반복에서는 Bellman 방정식을 사용하여 최적의 정책을 해결하는 반면, 정책 반복에서는 무작위로 정책 π를 선택하고 해당 정책의 보상을 찾습니다. 내 의심은 PI에서 임의의 정책 π를 선택하는 경우 여러 임의의 정책을 선택하더라도 어떻게 최적의 정책이 보장됩니까?