강화 학습에서 할인 요소의 역할 이해


43

나는 강화 학습에 대해 스스로 가르치고 있으며 할인 보상의 개념을 이해하려고 노력하고 있습니다. 따라서 어떤 상태-행동 쌍이 좋고 어떤 것이 나쁜지를 시스템에 알리려면 보상이 필요합니다. 그러나 내가 이해하지 못하는 것은 할인 된 보상이 필요한 이유입니다. 좋은 상태에 도달하는 것이 나중에가 아니라 빨리 이루어지는 것이 왜 중요한가?

나는 이것이 특정한 경우에 관련이 있다는 것을 이해합니다. 예를 들어, 강화 학습을 사용하여 주식 시장에서 거래하는 경우 나중에보다 빨리 이익을 얻는 것이 더 유리합니다. 그 돈을 가지고 있으면 지금 그 돈으로 일을 할 수 있기 때문에 나중에 그 돈으로 일하는 것보다 더 바람직합니다.

그러나 대부분의 경우 할인이 왜 유용한 지 알 수 없습니다. 예를 들어, 로봇이 장애물과 충돌 할 경우 위약금이 발생하는 반대편에 도달하기 위해 방을 탐색하는 방법을 배우기를 원한다고 가정 해 봅시다. 할인 요소가 없다면 장애물과 충돌하지 않고 상대방에게 완벽하게 도달하는 법을 배우게됩니다. 도착하는 데 시간이 오래 걸릴 수 있지만 결국에는 도착합니다.

그러나 보상에 대한 할인을 제공하면 로봇이 길을 따라 물체와 충돌해야하더라도 방의 다른쪽에 빨리 도달하도록 권장됩니다. 이것은 분명히 바람직한 결과가 아닙니다. 물론 로봇이 다른쪽에 빨리 도달하기를 원하지만, 이것이 길을 따라 물체와 충돌해야한다는 의미는 아닙니다.

따라서 직감은 모든 형태의 할인 요소가 실제로 차선책으로 이어질 것이라는 것입니다. 그리고 할인 요소의 선택은 종종 임의적 인 것처럼 보입니다. 내가 본 많은 방법은 단순히 0.9로 설정했습니다. 이것은 나에게 매우 순진한 것처럼 보이며 최적의 솔루션과 가장 빠른 솔루션 사이에 임의의 트레이드 오프를주는 것처럼 보이지만 실제로는이 트레이드 오프가 매우 중요합니다.

누군가이 모든 것을 이해하도록 도와 줄 수 있습니까? 감사합니다 :)

답변:


36

TL; DR.

할인율이 1보다 작다는 사실은 무한 합을 유한하게 만드는 수학적 트릭입니다. 이것은 특정 알고리즘의 수렴을 증명하는 데 도움이됩니다.

실제로, 할인 요소는 다음 결정 순간에 세계 (예 : 환경 / 게임 / 프로세스 )가 끝날지 여부에 대해 의사 결정자가 불확실하다는 사실을 모델링하는 데 사용될 수 있습니다 .

예를 들면 다음과 같습니다.

의사 결정자가 로봇 인 경우 할인 요인은 다음 순간에 로봇이 꺼질 확률 일 수 있습니다 (세계는 이전 용어로 끝남). 이것이 로봇이 시력이 약하고 합산 보상이 아니라 할인 된 합산 보상을 최적화하는 이유 입니다.

1보다 작은 할인율

보다 정확하게 대답하기 위해 할인율이 왜 1보다 작아야하는지 먼저 Markov 의사 결정 프로세스 (MDP)를 소개하겠습니다.

SA

기본 설정에서 의사 결정자는 조치를 취하고 환경으로부터 보상을받으며 환경은 상태를 변경합니다. 그런 다음 의사 결정자는 환경 상태를 감지하고 조치를 취하며 보상을받습니다. 상태 전이는 확률 적이며 실제 상태와 의사 결정자가 취한 조치에만 의존합니다. 의사 결정자가 얻은 보상은 취한 조치와 환경의 원래 상태와 새로운 상태에 따라 다릅니다.

Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

π

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
ββ<1

위의 최적화 문제는 무한한 시간 범위 ( )를 가지며 목표는 총 보상 ( 최대 보상 에 곱함 )을 최대화하는 것입니다 . 이것을 보통 지평선 할인 보상 기준무한한 MDP 문제라고 합니다 .TdiscountedRβn

문제를 할인이라고 합니다. 할인 된 문제 이 아닌 경우 합계가 수렴되지 않습니다. 매 순간마다 평균적으로 긍정적 인 보상을받는 모든 정책은 무한대에 달합니다. 이는 무한한 수평선 합계 보상 기준 이 될 수 있으며 좋은 최적화 기준은 아닙니다.β<1β=1

여기에 내가 의미하는 바를 보여주는 장난감 예가 있습니다.

단지 두 가지 동작이 있다고 가정 및 보상 기능이 동일하다 경우 , 및 경우, (보상 상태에 의존하지 않는다).a=0,1R1a=10a=0

더 많은 보상을 얻는 정책은 항상 행동 을 취하고 행동 취하지 않는 것이 분명합니다 . 이 정책을 라고하겠습니다 . 작은 확률 조치 을 취하는 다른 정책 를 비교 하고 그렇지 않으면 조치 합니다.a=1a=0πππa=1α<<1a=0

무한 수평선 할인 보상 기준에서 방정식 (1)은 정책 에 대해 (기하학적 계열의 합 )가되고 정책 방정식 1은 . 이후 , 우리는 말할 보다 더 좋은 정책이다 . 실제로 는 최적의 정책입니다.11βππα1β11β>α1βπππ

무한 수평선 합 보상 기준 ( ) 방정식 (1)은 어떤 경찰에 대해서도 수렴되지 않습니다 (무한까지 합산 됨). 그래서 정책 반면 보다 높은 보상을 얻을 수 두 정책이 기준에 따라 동일합니다. 이것이 무한 지평선 합 보상 기준이 유용하지 않은 이유 중 하나입니다.β=1ππ

앞에서 언급했듯이 은 방정식 (1)의 합계를 수렴하는 트릭을 만듭니다.β<1

다른 최적 성 기준

강요하지 않는 다른 최적 성 기준이 있습니다 .β<1

유한 한 수평선 기준 의 목적은 시간대 까지 할인 보상을 극대화하는 것입니다T

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

에 대한 및 유한.β1T

에서는 무한 수평선 평균 보상 기준 대물이다

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

끝 노트

최적 성 기준에 따라 다른 알고리즘을 사용하여 최적의 정책을 찾습니다. 예를 들어 유한 한 지평선 문제의 최적 정책은 상태와 실제 시간 순간에 따라 달라집니다. 대부분의 강화 학습 알고리즘 (예 : SARSA 또는 Q-learning)은 할인 보상 무한 수평선 기준에 대해서만 최적의 정책으로 수렴됩니다 (동적 프로그래밍 알고리즘에서도 마찬가지입니다). 평균 보상 기준의 경우 최적의 정책으로 수렴하는 것으로 표시된 알고리즘은 없지만 이론적 수렴은 좋지 않지만 성능이 우수한 R- 러닝을 사용할 수 있습니다.


1
귀하의 답변에있는 모든 중국인을 이해하기 위해 읽어야 할 것에 대한 아이디어가 있습니까?
thibaut noah

@thibautnoah 이것은 IMHO 최고의 참조 강화 학습 : Sutton과 Barto의 소개입니다. [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

고마워 친구, 아마도 수학에 관한 다른 책이 필요할 것입니다. 그러나 그것은 시작이라고 생각합니다;)
thibaut noah

6

당신 (소위 할인 요인 것을 맞아요 -이 다르다는 점에주의 TD-에서 )는 "생명의 긴급"같은 역할을하고 그러므로 문제의 일부 - 그것은에있는 것처럼 인간의 삶 : 어떤 사람들은 마치 영원히 사는 것처럼 산다. 어떤 사람들은 마치 내일 죽을 것처럼 살아요.γλλ


1

TL; DR : 할인 요소는 시간대와 관련이 있습니다. 더 긴 시간 지평은 더 관련성이없는 정보를 포함하기 때문에 훨씬 더 많은 차이가 있으며, 짧은 지평은 단기 이득에만 편향 됩니다.

할인 요소는 본질적으로 강화 학습 에이전트가 즉각적인 미래의 보상에 비해 먼 미래의 보상에 대해 얼마나 신경을 쓰는지를 결정합니다. 경우 , 에이전트는 완전히 근시 일 만 즉각적인 보상을 생산하는 행동에 대해 배우게됩니다. 경우 , 에이전트는 미래의 보상 모두의 총합을 기준으로는 각각의 조치를 평가합니다.γ=0γ=1

그렇다면 왜 항상 를 가능한 한 높게 만들고 싶지 않습니까? 글쎄, 대부분의 행동에는 오래 지속되는 영향이 없습니다. 예를 들어, 매월 첫째 날에 스무디로 자신을 치료하기로 결정하고 블루 베리 스무디를받을 것인지 딸기 스무디를받을 것인지 결정해야한다고 가정 해보십시오. 좋은 강화 학습자로서, 귀하는 후속 보상이 얼마나 큰지에 따라 결정의 질을 판단합니다. 시간이 매우 짧은 경우 스무디 맛과 같은 즉각적인 보상 만 고려할 수 있습니다. 몇 시간과 같이 더 긴 시간의 지평으로, 당신은 또한 배탈이 있는지 아닌지 등을 고려할 수 있습니다. 당신의 시간의 수평선이 한 달 동안 지속한다면, 다음하게 매 것은 당신은 좋은 또는 나쁜 생각 한 달을γ올바른 스무디 결정을 내 렸는지 여부에 대한 판단에 영향을 미칩니다. 당신은 관련없는 많은 정보를 고려하게 될 것이므로, 당신의 판단은 큰 차이를 가지고 배우기 어려울 것입니다.

의 특정 값 을 선택하는 것은 시간 범위를 선택하는 것과 같습니다. 상담원의 할인 보상 를 로 다시 작성하는 데 도움이됩니다. 여기서 식별 및 . 값 은 할인 요소와 관련된 시간대를 명시 적으로 보여줍니다. 은 및 보다 훨씬 많은 보상에 해당합니다.γG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τ미래의 시간 단계는 기하 급수적으로 억제됩니다. 일반적으로 시간대에는 특정 조치에 대한 모든 관련 보상이 포함되지만 더 이상은 제외되도록 할인 요소를 선택해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.