«deep-rl» 태그된 질문

2
함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?
학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.큐QQ큐※Q∗Q^* ∑티α티( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑티α2티( s , a ) &lt; ∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty 여기서 는 상태 와 연관된 ...
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.