인공 지능 deep-rl

함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?

학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.큐QQ큐※Q∗Q^* ∑티α티( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑티α2티( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty 여기서 는 상태 와 연관된 …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

«deep-rl» 태그된 질문