«temporal-difference» 태그된 질문

2
몬테카를로 방법은 시간적 차이 방법보다 언제 선호됩니까?
최근에 강화 학습에 대해 많은 연구를 해왔습니다. 나는 Sutton & Barto의 강화 학습 : 대부분의 소개 를 따랐다 . Markov 의사 결정 프로세스가 무엇인지, DP (Dynamic Programming), Monte Carlo 및 DP (Temporal Difference) 학습을 사용하여 이러한 문제를 해결하는 방법을 알고 있습니다. 내가 겪고 있는 문제 는 Monte Carlo가 언제 TD- …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.