TL; DR.
할인율이 1보다 작다는 사실은 무한 합을 유한하게 만드는 수학적 트릭입니다. 이것은 특정 알고리즘의 수렴을 증명하는 데 도움이됩니다.
실제로, 할인 요소는 다음 결정 순간에 세계 (예 : 환경 / 게임 / 프로세스 )가 끝날지 여부에 대해 의사 결정자가 불확실하다는 사실을 모델링하는 데 사용될 수 있습니다 .
예를 들면 다음과 같습니다.
의사 결정자가 로봇 인 경우 할인 요인은 다음 순간에 로봇이 꺼질 확률 일 수 있습니다 (세계는 이전 용어로 끝남). 이것이 로봇이 시력이 약하고 합산 보상이 아니라 할인 된 합산 보상을 최적화하는 이유
입니다.
1보다 작은 할인율
보다 정확하게 대답하기 위해 할인율이 왜 1보다 작아야하는지 먼저 Markov 의사 결정 프로세스 (MDP)를 소개하겠습니다.
SA
기본 설정에서 의사 결정자는 조치를 취하고 환경으로부터 보상을받으며 환경은 상태를 변경합니다. 그런 다음 의사 결정자는 환경 상태를 감지하고 조치를 취하며 보상을받습니다. 상태 전이는 확률 적이며 실제 상태와 의사 결정자가 취한 조치에만 의존합니다. 의사 결정자가 얻은 보상은 취한 조치와 환경의 원래 상태와 새로운 상태에 따라 다릅니다.
Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
π
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
ββ<1
위의 최적화 문제는 무한한 시간 범위 ( )를 가지며 목표는 총 보상 ( 최대 보상 에 곱함 )을 최대화하는 것입니다 . 이것을 보통 지평선 할인 보상 기준 이 무한한 MDP 문제라고 합니다 .T→∞discountedRβn
문제를 할인이라고 합니다. 할인 된 문제 이 아닌 경우 합계가 수렴되지 않습니다. 매 순간마다 평균적으로 긍정적 인 보상을받는 모든 정책은 무한대에 달합니다. 이는 무한한 수평선 합계 보상 기준 이 될 수 있으며 좋은 최적화 기준은 아닙니다.β<1β=1
여기에 내가 의미하는 바를 보여주는 장난감 예가 있습니다.
단지 두 가지 동작이 있다고 가정 및 보상 기능이 동일하다 경우 , 및 경우, (보상 상태에 의존하지 않는다).a=0,1R1a=10a=0
더 많은 보상을 얻는 정책은 항상 행동 을 취하고 행동 취하지 않는 것이 분명합니다 . 이 정책을 라고하겠습니다 . 작은 확률 조치 을 취하는 다른 정책 를 비교 하고 그렇지 않으면 조치 합니다.a=1a=0π∗π∗π′a=1α<<1a=0
무한 수평선 할인 보상 기준에서 방정식 (1)은 정책 에 대해 (기하학적 계열의 합 )가되고 정책 방정식 1은 . 이후 , 우리는 말할 보다 더 좋은 정책이다 . 실제로 는 최적의 정책입니다.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
무한 수평선 합 보상 기준 ( ) 방정식 (1)은 어떤 경찰에 대해서도 수렴되지 않습니다 (무한까지 합산 됨). 그래서 정책 반면 보다 높은 보상을 얻을 수 두 정책이 기준에 따라 동일합니다. 이것이 무한 지평선 합 보상 기준이 유용하지 않은 이유 중 하나입니다.β=1ππ′
앞에서 언급했듯이 은 방정식 (1)의 합계를 수렴하는 트릭을 만듭니다.β<1
다른 최적 성 기준
강요하지 않는 다른 최적 성 기준이 있습니다 .β<1
유한 한 수평선 기준 의 목적은 시간대 까지 할인 보상을 극대화하는 것입니다T
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
에 대한 및 유한.β≤1T
에서는 무한 수평선 평균 보상 기준 대물이다
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
끝 노트
최적 성 기준에 따라 다른 알고리즘을 사용하여 최적의 정책을 찾습니다. 예를 들어 유한 한 지평선 문제의 최적 정책은 상태와 실제 시간 순간에 따라 달라집니다. 대부분의 강화 학습 알고리즘 (예 : SARSA 또는 Q-learning)은 할인 보상 무한 수평선 기준에 대해서만 최적의 정책으로 수렴됩니다 (동적 프로그래밍 알고리즘에서도 마찬가지입니다). 평균 보상 기준의 경우 최적의 정책으로 수렴하는 것으로 표시된 알고리즘은 없지만 이론적 수렴은 좋지 않지만 성능이 우수한 R- 러닝을 사용할 수 있습니다.