경험 재생에 정책 외 알고리즘이 필요한 이유는 무엇입니까?


12

DQN " 심화 강화 학습으로 Atari 재생 "을 소개하는 논문 에서 다음과 같이 언급했습니다.

경험 재생을 통해 학습하는 경우 Q 정책 학습의 선택에 동기를 부여하는 정책 외 학습 (현재의 매개 변수가 샘플 생성에 사용 된 것과 다르기 때문에)을 학습해야합니다.

나는 그것이 무엇을 의미하는지 이해하지 못했습니다. SARSA를 사용 하고 메모리에서 a'취할 조치에 대한 조치 를 기억 s'한 다음 배치를 샘플링하고 DQN에서와 같이 Q를 업데이트하면 어떻게됩니까? 그리고 행위자 비평 적 방법 (구체적으로 A3C)이 경험 재생을 사용할 수 있습니까? 그렇지 않다면 왜?

답변:


2

SARSA와 같은 정책에 따라 모든 주에서의 행동은 일반적으로 보상을 이용하는 경향이있는 에이전트의 현재 정책에 따라 선택 될 것으로 예상합니다.

그렇게하면 마지막 보상에 따라 정책을 업데이트 할 때 정책이 개선됩니다. 특히, 특정 상태 / 조치의 값을 예측하는 NN의 매개 변수를 업데이트합니다.

그러나 경험 재생과 같이 저장된 전환을 기반으로 정책을 업데이트하면 실제로는 시간이지나면서 더 이상 현재 정책이 아닌 정책의 조치를 평가하므로 더 이상 정책이 적용되지 않습니다.

Q 값은 현재 상담원 정책에 따라 주에서받을 향후 보상에 따라 평가됩니다.

그러나 이제 다른 정책을 따르고 있으므로 더 이상 사실이 아닙니다. 따라서 이들은 엡실론 탐욕 접근 방식을 기반으로 탐색하는 일반적인 정책 외 방법을 사용합니다.


고맙지 만, 나는 아직도 이것을 이해하지 못한다 : 만약 내가 TD (0) 업데이트 규칙을 사용하고, 전환을 기억하고 (s, a, r, s'), 재생을 위해이 경험을 이끌어 내면; 지금 내 현재의 정책이 수행해야 말한다 가정 a's'나는 마크가 Q(s, a)있어야합니다 r + Q(s', a')및 그라데이션 하강을한다. 나는 정책에 대한 재생 경험을하고 있다고 생각합니다. 프로세스에 문제가 있습니까?
DarkZero

문제는 이전과 다른 정책을 사용하고 있으며 이전 정책을 사용하여 해당 조치를 선택했기 때문에 실제로 정책에 있다고 말할 수는 없다는 것입니다. 정책의 Q 값을 정확하게 평가하기 위해 같은 작업으로 많은 작업을 수행해야합니다. 여기서는 해당 정책이 선택할 수없는 작업을 사용하여 현재 정책을 평가하려고합니다.
dante

내가 여기서 정책을 벗어난 것이라고 말할 수 있습니까? 이론적으로 그렇게 한 결과는 무엇입니까?
DarkZero

1
제가 여러분을 올바르게 이해한다면, Q- 러닝과 같은 정책 외 방법을 사용해야합니다. 미래의 예상되는 보상으로 항상 최대 Q를 선택하십시오. 현재 학습이 무엇인지는 중요하지 않습니다. Q 학습의 속성이기 때문에 미래에 항상 최대 Q를 선택하면 Q가 최적의 정책 하에서 Q로 수렴합니다. 또는 솔직히 하나의 정책을 따르고이 정책을 통해 향후 조치를 포함한 모든 조치를 선택하고 정책 업데이트를 수행해야합니다. 맞습니까?
DarkZero

1
지금까지는 정책 정책이 좋은 이유를 이해할 수 없습니다. 정책 외 방법에는 더 많은 자유가있는 것으로 보이며 자체적으로 최적의 정책을 발견 할 수 있습니다. stats.stackexchange.com/questions/265354/… 에도 대답 하시겠습니까 ? 모든 토론에 감사드립니다.
DarkZero

1

데이비드 실버 46:10에서이 비디오 강의에서이 문제를 해결 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : 경험의 재생은 선택 에서 시간에 지배적 인 정책을 사용하고이 장점 중 하나입니다 - 그것은 Q 기능을 할 수 있습니다 최근 상태와 정책의 상관 관계를 구분하고 네트워크가 특정 동작 모드에 "고정"되는 것을 방지하는 이전 정책을 배웁니다.as

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.