«q-learning» 태그된 질문

1
Q- 러닝과 정책 그라디언트 방법의 관계는 무엇입니까?
내가 이해하는 한, Q- 러닝 및 정책 그라디언트 (PG)는 RL 문제를 해결하는 데 사용되는 두 가지 주요 접근법입니다. Q- 러닝은 특정 주에서 취해진 특정 행동의 보상을 예측하는 것을 목표로하지만 정책 그라디언트는 행동 자체를 직접 예측합니다. 그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- …

1
DQN에 두 개의 다른 네트워크가 필요한 이유는 무엇입니까?
I 관통가는 이 DQN의 구현 및 I은 라인 124, 125 Q 개의 상이한 네트워크가 초기화 된 것을 알 수있다. 내 이해로, 하나의 네트워크가 적절한 조치를 예측하고 두 번째 네트워크는 Bellman 오류를 찾기 위해 목표 Q 값을 예측한다고 생각합니다. Q 값을 단순히 예측하여 두 경우 모두에 사용하는 단일 네트워크를 만들 수없는 …

2
함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?
학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.큐QQ큐※Q∗Q^* ∑티α티( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑티α2티( s , a ) &lt; ∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty 여기서 는 상태 와 연관된 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.