답변:
보상 기능은 상담원이 어떻게 행동해야하는지 설명합니다. 다시 말해, 그들은 "규범적인"내용을 가지고 있으며, 당신 이 요원이 달성하고자하는 것을 규정합니다 . 예를 들어, 일부 보람 상태 음식의 맛을 나타낼 수 있습니다. 또는 아마도 는 음식을 맛보는 행위를 나타낼 수 있습니다. 따라서 보상 기능이 상담원의 동기가 무엇인지 결정하는 정도까지는 그렇습니다.
절대적인 제한은 없지만 보상 기능이 "더 나은 행동"을하면 상담원이 더 잘 배우게됩니다. 실제로 이것은 수렴 속도를 의미하며 로컬 최소값에 갇히지 않습니다. 그러나 추가 사양은 사용중인 강화 학습의 종에 따라 크게 달라집니다. 예를 들어, 상태 / 활동 공간이 연속적이거나 불 연속적입니까? 세계 또는 행동 선택이 확률 론적입니까? 보상은 지속적으로 수확됩니까, 아니면 끝에서만 발생합니까?
문제를 보는 한 가지 방법은 보상 기능이 문제의 경도를 결정한다는 것입니다. 예를 들어, 전통적으로 보상받을 단일 상태를 지정할 수 있습니다.
연속 상태 공간의 경우 상담원이 쉽게 학습하도록하려면 보상 기능이 연속 적이고 차별화 되어야합니다 . 따라서 다항식은 많은 알고리즘에 적합합니다. 또한 지역화 된 최소값을 제거하십시오. Rastrigin 기능 과 같이 보상 기능을 수행 하지 않는 방법 에는 여러 가지 예가 있습니다 . 이것을 말하면서, 몇 가지 RL 알고리즘 (예 : Boltzmann 머신 )은 이것에 대해 다소 강력합니다.
실제 문제를 해결하기 위해 RL을 사용하는 경우 보상 기능을 찾는 것이 문제의 가장 어려운 부분이지만 상태 공간 을 지정하는 방법과 밀접한 관련이 있습니다 . 예를 들어, 시간에 따른 문제에서 목표까지의 거리는 종종 보상 기능이 좋지 않습니다 (예 : 산악 차량 문제 ). 이러한 상황은 더 높은 차원의 상태 공간 (숨겨진 상태 또는 메모리 추적)을 사용하거나 계층 적 RL을 사용하여 해결할 수 있습니다.
추상적 인 수준에서 감독되지 않은 학습은 "옳고 그른"성능을 규정하는 것으로 간주되었습니다. 그러나 우리는 이제 RL이 단순히 책임을 교사 / 비평가에서 보상 기능으로 옮기는 것을 볼 수 있습니다. 문제를 해결하는 덜 순환적인 방법이 있습니다. 즉 , 최상의 보상 기능 을 유추하는 것 입니다. 한 가지 방법을 역 RL 또는 "견습 학습"이라고 하며, 관찰 된 행동을 재현하는 보상 기능을 생성합니다. MLE, Bayesian 또는 정보 이론적 방법을 사용하여 관찰 결과를 재현 할 수있는 최상의 보상 기능을 찾을 수도 있습니다.