2
몬테카를로 방법은 시간적 차이 방법보다 언제 선호됩니까?
최근에 강화 학습에 대해 많은 연구를 해왔습니다. 나는 Sutton & Barto의 강화 학습 : 대부분의 소개 를 따랐다 . Markov 의사 결정 프로세스가 무엇인지, DP (Dynamic Programming), Monte Carlo 및 DP (Temporal Difference) 학습을 사용하여 이러한 문제를 해결하는 방법을 알고 있습니다. 내가 겪고 있는 문제 는 Monte Carlo가 언제 TD- …