당신은 오른쪽이 V 기능은 당신에게 국가의 가치를 제공하고, Q (주어진 정책 다음 당신이 상태에서 작업의 가치를 제공 π ). Q-learning과 Tom Mitchell의 저서 "Machine Learning"(1997), ch. 13을 다운로드 할 수 있습니다. V 는 무한 시리즈의 합으로 정의되지만 여기서는 중요하지 않습니다. 중요한 것은 Q 함수는 다음과 같이 정의됩니다.
Q(s,a)=r(s,a)+γV∗(δ(s,a))
여기서 모르는 최적의 정책을 따를 수있는 경우 V *는 상태의 최상의 값입니다. 그러나 그것의 측면에서 좋은 특성 갖는다Q
V∗(s)=maxa′Q(s,a′)
컴퓨팅Q 일 교체에 의해 수행되는V∗첫 번째 방정식에서
Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
후속 상태 의 최상의 Q 값으로 현재 상태에서 조치의 Q 값을 표시하기 때문에 처음에는 이상한 재귀로 보일 수 있지만 백업 프로세스에서이를 사용하는 방법을 살펴보면 의미가 있습니다. 프로세스가 목표 상태에 도달하면 프로세스가 중지되고 보상을 수집하여 최종 전환의 Q 값이됩니다. 다음 교육 에피소드에서 탐색 프로세스가 해당 선행 상태에 도달하면 백업 프로세스는 위의 동등성을 사용하여 이전 상태의 현재 Q 값을 업데이트합니다. 다음 번 에전임자의 방문을 통해 상태의 Q 값이 업데이트되고 다시 줄을 서서히 돌아갑니다 (Mitchell의 책은 모든 계산을 저장하고 나중에 재생하여이를 수행하는보다 효율적인 방법을 설명합니다). 모든 주를 자주 방문하는 경우이 프로세스는 결국 최적의 Q를 계산합니다.
때때로 Q가 실제로 얼마나 업데이트되는지를 제어하기 위해 학습 속도 α 적용되는 것을 볼 수 있습니다 :
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
공지 이제 Q 값에 대한 업데이트가않는현재 Q 값에 의존한다. Mitchell의 책은 또한 왜 그리고 왜 당신이α 를 필요로하는지 설명합니다: 확률 론적 MDP를위한 것입니다. α 없으면상태, 동작 쌍이 시도 될 때마다 다른 보상이 발생하므로 Q ^ 함수는 모든 곳에서 튀어 나와 수렴하지 않습니다. α새로운 지식이 부분적으로 만 받아 들여 지도록 거기에 있습니까? 초기에 α 는 Q의 전류 (주로 임의의 값)가 덜 영향을받지 않도록 높게 설정됩니다. 훈련이 진행됨에 따라 α 가 감소하여 새로운 업데이트로 인한 영향이 줄어들고 Q 학습이 수렴됩니다.