SARSA와 Q Learning을 동시에 선택해야하는시기
SARSA와 Q Learning은 모두 유사한 방식으로 작동하는 강화 학습 알고리즘입니다. 가장 큰 차이점은 SARSA는 정책에 있고 Q Learning은 정책에 있지 않다는 것입니다. 업데이트 규칙은 다음과 같습니다. Q 학습 : Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA : Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 여기서 st,atst,ats_t,\,a_trtrtr_t 및 r_t 는 시간 단계 ttt 에서의 상태, 동작 및 보상 이며 γγ\gamma 는 할인 …