인공 지능 q-learning

1

내가 이해하는 한, Q- 러닝 및 정책 그라디언트 (PG)는 RL 문제를 해결하는 데 사용되는 두 가지 주요 접근법입니다. Q- 러닝은 특정 주에서 취해진 특정 행동의 보상을 예측하는 것을 목표로하지만 정책 그라디언트는 행동 자체를 직접 예측합니다. 그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- …

20 reinforcement-learning q-learning policy-gradients comparison

1

DQN에 두 개의 다른 네트워크가 필요한 이유는 무엇입니까?

I 관통가는 이 DQN의 구현 및 I은 라인 124, 125 Q 개의 상이한 네트워크가 초기화 된 것을 알 수있다. 내 이해로, 하나의 네트워크가 적절한 조치를 예측하고 두 번째 네트워크는 Bellman 오류를 찾기 위해 목표 Q 값을 예측한다고 생각합니다. Q 값을 단순히 예측하여 두 경우 모두에 사용하는 단일 네트워크를 만들 수없는 …

12 reinforcement-learning q-learning dqn

2

함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?

학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.큐QQ큐※Q∗Q^* ∑티α티( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑티α2티( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty 여기서 는 상태 와 연관된 …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

«q-learning» 태그된 질문