강화 학습에 대한 할인 요소의 의미


10

Atari의 게임 에서 Google 심층 업적을 읽은 후 q-learning 및 q-networks를 이해하려고 노력하고 있지만 약간 혼란 스럽습니다. 할인 요소의 개념에서 혼란이 발생합니다. 내가 이해 한 것에 대한 간략한 요약. 심층 컨볼 루션 신경망 (convolutional neural network)은 행동의 최적 기대 값의 값을 추정하는데 사용된다. 네트워크는 손실 함수를 최소화하는 여기서, E S ' [ Y | s , a ] E [ r + γ m a x a Q ( s , a ; θ i ) | s,a] 여기서Q는 누적 점수 값이고r은 조치 선택에 대한 점수 값입니다. s,a s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,a 은 각각 국가와 액션은 시간에 선택 t 과 상태와 시간에 작업 t ' . θ는 - 내가 이전 반복에서 네트워크의 무게입니다. γ는 계정에 점수 값의 시간적 차이를 취할 할인 요인이다. I 첨자는 시간 단계이다. 여기서 문제는 γ θ에 의존하지 않는이유를 이해하는 것입니다.s,attθiγiγθ

보기의 수학적 관점에서 할인 요인과 상태에 도달 할 가능성을 나타냅니다 ' 상태에서 .γss

네트워크가 실제로 γ 의 실제 값에 따라 를 다시 스케일링하는 법을 배우는 것 같습니다 . 그래서 γ = 1을 허용하지 않는 이유는 무엇입니까?Qγγ=1

답변:


6

할인 요인은 없는 상태에 도달 할 가능성을 나타냅니다 s 상태에서 s . 즉 것 p(s|s,a) 가 모델이없는 (전용 모델 기반 강화 학습 방법이 그 전이 확률을 사용)이기 때문에, Q-학습에 사용되지 않는. 할인율 ( γ 은 사용자가 조정 한 하이퍼 파라미터로, 미래 이벤트가 얼마나 멀리 떨어져 있는지에 따라 가치를 잃는 정도를 나타냅니다. 참조 된 식, 당신이 말하는 그 값 y 현재 상태에 대한 s이 상태에 대한 즉각적인 보상과 앞으로 s 에서 시작하여받을 것으로 예상되는 것 입니다. 그러나 미래의 보상은 (즉, γ<1 ) 현재 보상을받는 것과 같은 가치를 갖지 않을 수 있기 때문에 ( 내일 $ 100 대신 $ 100 를받는 것을 선호하는 것처럼) 미래 기간을 할인해야합니다 . 미래의 보상을 감가 상각하기 원하는 금액을 선택하는 것은 귀하에게 달려 있습니다 (문제에 따라 다릅니다). 할인 요소 0은 즉각적인 보상에만 관심이 있다는 것을 의미합니다. 할인 요소가 높을수록 시간이 지남에 따라 보상이 더 많이 전파됩니다.

신경망의 맥락 밖에서 순수한 강화 학습을 배우기 위해 Deep-Q를 시도하기 전에 Sutton & Barto 책 을 읽는 것이 좋습니다 .


귀하의 답변에 감사드립니다.하지만 여전히 의심의 여지가 있습니다. 큰 소리로 생각하고 있습니다. 모든 단계에서 의 점수를 받고 게임을 시작하려면 c 를 지불해야 한다고 상상해보십시오 . 기대 값은 어떻게 계산합니까? 음 E v = + i = 1 γ i d c 미래에 다른 순간에 d 값을 더하고 있기 때문에 그렇지 않습니까? dc
Ev=i=1+γidc
d
emanuele

글쎄, 난 경우에도 중단됩니다
dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.