1
Q- 러닝과 정책 그라디언트 방법의 관계는 무엇입니까?
내가 이해하는 한, Q- 러닝 및 정책 그라디언트 (PG)는 RL 문제를 해결하는 데 사용되는 두 가지 주요 접근법입니다. Q- 러닝은 특정 주에서 취해진 특정 행동의 보상을 예측하는 것을 목표로하지만 정책 그라디언트는 행동 자체를 직접 예측합니다. 그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- …