강화 학습에서 Q 기능은 무엇이며 V 기능은 무엇입니까?


30

저 보인다 기능을 용이하게 나타낼 수있다 함수 따라서 함수 나에게 불필요한 것으로 보인다. 그러나, 나는 강화 학습에 익숙하지 않아서 뭔가 잘못되었다고 생각합니다.VQV

정의

Q 및 V 학습은 Markov 의사 결정 프로세스와 관련이 있습니다. MDP는 5 튜플 와(S,A,P,R,γ)

  • S 는 일련의 상태입니다 (일반적으로 유한)
  • A 는 일련의 동작입니다 (일반적으로 유한함)
  • P(s,s,a)=P(st+1=s|st=s,at=a) 는 액션 상태 에서 상태 로 갈 확률 입니다.ssa
  • R(s,s,a)R 은 조치 상태 에서 상태 로 전환 한 후의 즉각적인 보상 입니다. (보통 문제인 것 같습니다 ).s'sas
  • γ[0,1] 할인 요소라고하며 즉각적인 보상 ( γ=0 ), 총 보상 ( γ=1 ) 또는 일부 절충에 중점을 둘 것인지 결정합니다.

정책 π 에 따라, 강화 학습 : 소개 서튼에 의해 바토 기능입니다 π:SA (이 확률 될 수있다).

따르면 마리오 마틴 슬라이드 상기 V 함수 이다 이고 Q 함수

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

내 생각

예상되는 전체 값이 (보상하지!) 어떤 기능 상태 상태의 정책 아래는 것입니다.Vsπ

상태의 값이 어떤 기능의 상태 및 동작 정책 하에서는 있다.Qsaπ

이것은

Qπ(s,π(s))=Vπ(s)

권리? 그렇다면 우리는 왜 가치 기능을 가지고 있습니까? (내가 뭔가 섞인 것 같아)

답변:


15

Q- 값은 동작을 명시 적으로 만드는 좋은 방법이므로 전환 기능을 사용할 수없는 (모델이없는) 문제를 처리 할 수 ​​있습니다. 그러나 작업 공간이 크면 상황이 좋지 않고 Q 값이 그렇게 편리하지 않습니다. 엄청난 수의 행동 또는 심지어 연속적인 행동 공간을 생각하십시오.

샘플링 관점에서의 차원 Q(s,a) 보다 높은 V(에스) 어렵게 얻을 수 있습니다 충분히 얻을 수 있도록 (에스,에이) 에 비해 샘플 (에스) . 전환 기능에 액세스 할 수있는 경우 때때로 V 가 좋습니다.

둘 다 결합 된 다른 용도도 있습니다. 예를 들어, 이용 함수 ( S , ) = Q ( S , ) - V ( S ) . 관심이 있으시면 이점 기능을 사용하여 최근 예제를 찾을 수 있습니다.A(s,a)=Q(s,a)V(s)

심층 강화 학습을위한 결투 네트워크 아키텍처

Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot 및 Nando de Freitas가 작성했습니다.


19

Vπ(s) 는 MDP (Markov Decision Process)의 상태 값 함수입니다. 이 상태에서 시작하는 기대 수익의s 다음과 같은 정책π .

표현에서

Vπ(s)=Eπ{Gt|st=s}

Gt 는즉각적인 수익률 인 R t 와 반대로시간 단계t 에서 발생한 총 할인 보상입니다. 여기에서는 정책 π 에 따라 모든 조치를 기대합니다.Rtπ

Qπ(s,a) 는 동작 값 함수입니다. 정책 π에 따라상태s 에서 시작하여 조치 a 를 수행 하는 것으로 예상되는 수익입니다. 특정 주에서의 특정 행동에 초점을 맞추고 있습니다.πa

Qπ(s,a)=Eπ{Gt|st=s,at=a}

관계 QπVπ (그 상태가되는 값) 인

Vπ(s)=aAπ(a|s)Qπ(a,s)

모든 조치 값에 해당 조치를 취할 확률 (정책 π(a|s) )을 곱한 값을 합산하십시오 .

그리드 월드 예제를 생각하면 (위 / 아래 / 오른쪽 / 왼쪽)의 한 단계 앞으로 상태 값과 (위 / 아래 / 오른쪽 / 왼쪽) 확률을 곱합니다.


5
이것이 가장 간결한 답변입니다.
Brett

라는 소스가 있습니다 . 당신은 어떻게 당신이 당신의 대답에 제공 한이 방정식 관련이 있는가 V의 π ( S ) = Σ π ( | 이야 ) * Q의 π ( , ) ? 방정식에서 가중 합의 Q로 V 를 정의합니다.Vπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQ가치. 이것은 를 가장 높은 Q 로 정의하는 정의와 다릅니다 . VQ
nbro

@ nbro 나는 그것이 당신이 따르는 정책의 종류에 달려 있다고 생각합니다. 순수한 탐욕스러운 정책에서 당신은 맞습니다. 이 확률 적 조치를 결정하기 위해 지어진 더 탐구 정책이 있다면, 그때 위의 올바른 것
deltaskelta

7

당신은 오른쪽이 V 기능은 당신에게 국가의 가치를 제공하고, Q (주어진 정책 다음 당신이 상태에서 작업의 가치를 제공 π ). Q-learning과 Tom Mitchell의 저서 "Machine Learning"(1997), ch. 13을 다운로드 할 수 있습니다. V 는 무한 시리즈의 합으로 정의되지만 여기서는 중요하지 않습니다. 중요한 것은 Q 함수는 다음과 같이 정의됩니다.

Q(s,a)=r(s,a)+γV(δ(s,a))
여기서 모르는 최적의 정책을 따를 수있는 경우 V *는 상태의 최상의 값입니다. 그러나 그것의 측면에서 좋은 특성 갖는다Q
V(s)=maxaQ(s,a)
컴퓨팅Q 일 교체에 의해 수행되는V첫 번째 방정식에서
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

후속 상태 의 최상의 Q 값으로 현재 상태에서 조치의 Q 값을 표시하기 때문에 처음에는 이상한 재귀로 보일 수 있지만 백업 프로세스에서이를 사용하는 방법을 살펴보면 의미가 있습니다. 프로세스가 목표 상태에 도달하면 프로세스가 중지되고 보상을 수집하여 최종 전환의 Q 값이됩니다. 다음 교육 에피소드에서 탐색 프로세스가 해당 선행 상태에 도달하면 백업 프로세스는 위의 동등성을 사용하여 이전 상태의 현재 Q 값을 업데이트합니다. 다음 번 전임자의 방문을 통해 상태의 Q 값이 업데이트되고 다시 줄을 서서히 돌아갑니다 (Mitchell의 책은 모든 계산을 저장하고 나중에 재생하여이를 수행하는보다 효율적인 방법을 설명합니다). 모든 주를 자주 방문하는 경우이 프로세스는 결국 최적의 Q를 계산합니다.

때때로 Q가 실제로 얼마나 업데이트되는지를 제어하기 위해 학습 속도 α 적용되는 것을 볼 수 있습니다 :

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
공지 이제 Q 값에 대한 업데이트가않는현재 Q 값에 의존한다. Mitchell의 책은 또한 왜 그리고 왜 당신이α 를 필요로하는지 설명합니다: 확률 론적 MDP를위한 것입니다. α 없으면상태, 동작 쌍이 시도 될 때마다 다른 보상이 발생하므로 Q ^ 함수는 모든 곳에서 튀어 나와 수렴하지 않습니다. α새로운 지식이 부분적으로 만 받아 들여 지도록 거기에 있습니까? 초기에 α 는 Q의 전류 (주로 임의의 값)가 덜 영향을받지 않도록 높게 설정됩니다. 훈련이 진행됨에 따라 α 가 감소하여 새로운 업데이트로 인한 영향이 줄어들고 Q 학습이 수렴됩니다.


0

다음은 Aaron의 답변에서 상태 값과 작업 값 사이의 관계에 대한 자세한 설명입니다. 먼저 정책 π 따른 가치 함수와 행동 가치 함수의 정의를 살펴 보자 .

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
Gt=k=0γkRt+k+1t
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
The above equation is important. It describes the relationship between two fundamental value functions in reinforcement learning. It is valid for any policy. Moreover, if we have a deterministic policy, then vπ(s)=qπ(s,π(s)). Hope this is helpful for you. (to see more about Bellman optimality equation https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198)


0

The value function is an abstract formulation of utility. And the Q-function is used for the Q-learning algorithm.


For the context of this question, the V and Q are different.
Siong Thye Goh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.