DQN " 심화 강화 학습으로 Atari 재생 "을 소개하는 논문 에서 다음과 같이 언급했습니다.
경험 재생을 통해 학습하는 경우 Q 정책 학습의 선택에 동기를 부여하는 정책 외 학습 (현재의 매개 변수가 샘플 생성에 사용 된 것과 다르기 때문에)을 학습해야합니다.
나는 그것이 무엇을 의미하는지 이해하지 못했습니다. SARSA를 사용 하고 메모리에서 a'
취할 조치에 대한 조치 를 기억 s'
한 다음 배치를 샘플링하고 DQN에서와 같이 Q를 업데이트하면 어떻게됩니까? 그리고 행위자 비평 적 방법 (구체적으로 A3C)이 경험 재생을 사용할 수 있습니까? 그렇지 않다면 왜?
(s, a, r, s')
, 재생을 위해이 경험을 이끌어 내면; 지금 내 현재의 정책이 수행해야 말한다 가정a'
에s'
나는 마크가Q(s, a)
있어야합니다r + Q(s', a')
및 그라데이션 하강을한다. 나는 정책에 대한 재생 경험을하고 있다고 생각합니다. 프로세스에 문제가 있습니까?