SARSA와 Q Learning은 모두 유사한 방식으로 작동하는 강화 학습 알고리즘입니다. 가장 큰 차이점은 SARSA는 정책에 있고 Q Learning은 정책에 있지 않다는 것입니다. 업데이트 규칙은 다음과 같습니다.
Q 학습 :
SARSA :
여기서 및 r_t 는 시간 단계 에서의 상태, 동작 및 보상 이며 는 할인 요소입니다.
SARSA에서는 실제 조치를 취하고 Q Learning에서는 보상이 가장 높은 조치를 취한다는 점을 제외하면 대부분 동일하게 보입니다.
하나가 다른 것을 선호해야하는 이론적 또는 실제적인 설정이 있습니까? Q Learning에서 최대치를 얻는 것이 연속적인 작업 공간에서 비용이 많이 들고 훨씬 더 많은 것을 볼 수 있습니다. 그러나 다른 것이 있습니까?