SARSA와 Q Learning을 동시에 선택해야하는시기


19

SARSA와 Q Learning은 모두 유사한 방식으로 작동하는 강화 학습 알고리즘입니다. 가장 큰 차이점은 SARSA는 정책에 있고 Q Learning은 정책에 있지 않다는 것입니다. 업데이트 규칙은 다음과 같습니다.

Q 학습 :

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

SARSA :

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

여기서 st,atrtr_t 는 시간 단계 t 에서의 상태, 동작 및 보상 이며 γ 는 할인 요소입니다.

SARSA에서는 실제 조치를 취하고 Q Learning에서는 보상이 가장 높은 조치를 취한다는 점을 제외하면 대부분 동일하게 보입니다.

하나가 다른 것을 선호해야하는 이론적 또는 실제적인 설정이 있습니까? Q Learning에서 최대치를 얻는 것이 연속적인 작업 공간에서 비용이 많이 들고 훨씬 더 많은 것을 볼 수 있습니다. 그러나 다른 것이 있습니까?


연속 작업 공간에서, 다양한 정책 기반 방법과 같은 직접 정책 검색 방법이 일반적으로 사용됩니다. 이미 파악한 바와 같이 연속 작업 공간에 대한 불연속 값 함수를 유지하고 평가하는 것은 실용적이지 못합니다. 특히 작업 공간의 차원이 큰 경우 ( 차원저주 때문에 ).
HelloGoodbye

답변:


27

SARSA에서는 실제 조치를 취하고 Q Learning에서는 보상이 가장 높은 조치를 취한다는 점을 제외하면 대부분 동일하게 보입니다.

실제로 둘 다 다음에 생성 된 실제 단일 작업 을 "취합니다" . Q 학습에서는 수행 한 조치에 관계없이 가능한 다음 조치의 최대 예상치에서 추정치를 업데이트합니다. SARSA에있는 동안 동일한 조치를 기반으로 추정치를 업데이트합니다.at+1

이것은 아마도 당신이 질문에서 "찍다"라는 의미 일 것이지만, 문헌에서, 행동을 취한다는 것은 그것이 예를 들어 의 값이되고 , 영향을 미친다 는 것을 의미합니다 .atrt+1st+1

하나가 다른 것을 선호해야하는 이론적 또는 실제적인 설정이 있습니까?

Q- 러닝은 SARSA와 비교하여 다음과 같은 장점과 단점이 있습니다.

  • Q- 러닝은 최적의 정책을 직접 배우고, SARSA는 탐색하는 동안 거의 최적의 정책을 배우게됩니다. 당신이 사르 사를 사용하여 최적의 정책을 배우고 싶은 경우에, 당신은 전략을 결정해야합니다 붕괴에 에서 조정에 서투른 hyperparameter 될 수 -greedy 액션 선택.ϵϵ

  • Q- 러닝 (및 일반적으로 정책 외 학습)은 SARSA보다 샘플 당 편차가 높으며 결과적으로 수렴하는 데 어려움을 겪을 수 있습니다. 이것은 Q- 러닝을 통해 신경망을 훈련 할 때 문제로 나타납니다.

  • SARSA는 컨버전스에 접근 하여 탐색 적 움직임으로 인한 처벌을 허용 하고 Q- 러닝은 무시합니다. 따라서 SARSA가 더 보수적입니다. 최적의 경로에 근접한 큰 부정적인 보상의 위험이있는 경우 Q- 학습은 탐험하는 동안 보상을 유발하는 경향이 있으며, SARSA는 위험한 최적의 경로를 피하고 천천히 사용하는 법을 배우는 경향이 있습니다 탐사 매개 변수가 줄어들 때 이 효과를 보여주는 고전적인 장난감 문제를 절벽 걷기 라고 합니다.

실제로 실수로 인해 비용이 많이 드는 경우 마지막 요점은 큰 차이를 만들 수 있습니다. 예를 들어 시뮬레이션이 아닌 실제 환경에서 로봇을 훈련하고 있습니다. 로봇이 손상된 경우 실시간으로 돈을 낭비하는 경우 높은 위험을 피하는보다 보수적 인 학습 알고리즘을 선호 할 수 있습니다.

시뮬레이션 또는 저비용의 빠른 평가 환경에서 최적의 에이전트를 교육하는 것이 목표라면, Q- 러닝은 첫 번째 시점 (최적의 정책을 직접 학습)으로 인해 좋은 선택입니다. 상담원 배운다 온라인, 당신이 얻은 보상에 대해 관심이 있다면 배우는 동안 , 다음 사르 사 더 나은 선택이 될 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.