" 강의 학습에서 소개 "에 다음 방정식 이 표시되지만 아래에서 파란색으로 강조 표시된 단계를 따르지 않습니다. 이 단계는 정확히 어떻게 도출됩니까?
" 강의 학습에서 소개 "에 다음 방정식 이 표시되지만 아래에서 파란색으로 강조 표시된 단계를 따르지 않습니다. 이 단계는 정확히 어떻게 도출됩니까?
답변:
이것은 그 뒤에 깨끗하고 구조화 된 수학에 대해 궁금해하는 모든 사람들을위한 답입니다 (즉, 임의의 변수가 무엇인지 아는 사람들의 그룹에 속하고 임의의 변수에 밀도가 있다는 것을 보여 주거나 가정해야한다면 이것은 다음과 같습니다) 당신을위한 답 ;-)) :
우선 우리는 Markov 의사 결정 프로세스에 유한 한 수의 보상이 있어야합니다. 즉 , 각각 변수에 속하는 유한 밀도의 세트가 있어야 합니다. 예 : 모든 및 맵 대해
(즉, MDP 뒤에있는 오토마타에는 무한히 많은 상태가있을 수 있지만 상태 사이에 무한히 천이 될 수있는 보상 분포는 무한히 많음)L 1
정리 1 : (즉, 적분 실수 랜덤 변수)를 로하고 가 공통 밀도를 갖도록
를 또 다른 랜덤 변수로 하자.X ∈ L 1 ( Ω )
증명 : 본질적으로 입증 여기 스테판 한센.
정리 2 : 하고 를 가 공통 밀도를 갖도록
여기서 는 범위입니다 .X ∈ L 1 ( Ω )
증명 :
E [ X | Y = y ]= ∫ R x p ( x | y ) d x (Thm. 1까지)= ∫ R x p ( x , y )P ( Y ) (D)X= ∫ R x ∫ Z p ( x , y , z ) d zP ( Y ) (D)X= ∫ Z ∫ R x p ( x , y , z )P ( Y ) (D)X(D)Z= ∫ Z ∫ R x p ( x | y , z ) p ( z | y ) d x d z= ∫ Z p ( z | y ) ∫ R x p ( x | y , z ) d x d z= ∫ Z p ( z | y ) E [ X | Y = y , Z = z ] d z (Thm. 1까지)
넣어 넣고 그러면 수렴하고 함수 이후에 MDP에 유한 한 보상 만 있다는 사실을 사용하여아직 (즉, 적분)을 가진자는 또한 그 (조건부 기대 [의 인수 분해]에 대한 정의 방정식에서 단조 수렴 정리의 일반적인 조합하고 지배 융합을 사용하여) 표시 할 수
이제 우리는
G t = ∑ ∞ k = 0 γ k R t + k
상태 공간이 유한 ( 이고 합이 유한함) 모든 보상이 모두 양수이거나 (그런 다음 모노톤 수렴을 사용함) 모든 보상이 음수입니다 (그런 다음 방정식과 모노톤 수렴을 다시 사용) 또는 모든 보상이 제한됩니다 (그런 다음 지배적 수렴을 사용합니다). 그런 다음 ( 위의 부분 / 유한 벨만 방정식의 양쪽에 를 적용하여 )∫S=∑S
E[Gt|St=st]=E[G(K)t|St=st]=E[Rt|St=st]+γ∫Sp(st+1|st)E[Gt+1|St+1=st+1]dst+1
나머지는 일반적인 밀도 조작입니다.
고지 : 매우 간단한 작업에서도 상태 공간은 무한 할 수 있습니다! 한 가지 예는 '극점 균형'작업입니다. 상태는 본질적으로 극의 각도 ( 의 값 , 셀 수없이 무한대입니다!)[0,2π)
비고 : 사람들은 ' 의 밀도를 직접 사용하고 '...하지만 ... 내 질문은 :Gt
시간 이후 할인 된 총 보상 금액을 다음과 같이합시다 .
t
Gt=Rt+1+γRt+2+γ2Rt+3+...
상태부터의 이용 가치는, 시간에서 기대 합에 상당
할인 보상 정책의 실행 상태부터 전방으로한다.
정의에 선형성의 법칙에 의해
법률에 따라s
R
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s′)|St=s]
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s′)|St=s]
=Eπ[Rt+1+γUπ(St+1=s′)|St=s]
프로세스 만족 마르코프 재산권 있다고 가정 :
확률 상태에서 끝나는의 상태에서 시작하는 데 취해진 조치 ,
및
보상 상태에서 끝나는의 상태에서 기동하고있는 액션 촬영 ,
Pr
Pr(s′|s,a)=Pr(St+1=s′,St=s,At=a)
R
R(s,a,s′)=[Rt+1|St=s,At=a,St+1=s′]
따라서 위의 유틸리티 방정식을 다음과 같이 다시 쓸 수 있습니다.
=∑aπ(a|s)∑s′Pr(s′|s,a)[R(s,a,s′)+γUπ(St+1=s′)]
어디에;
: 액션 복용의 가능성 때 상태에서 확률 적 정책. 결정적 정책의 경우π(a|s)
여기 내 증거가 있습니다. 조건부 분포의 조작을 기반으로하므로 쉽게 따라갈 수 있습니다. 이것이 당신을 돕기를 바랍니다.
v π ( s )= E [ G t | S t = s ]= E [ R t + 1 + γ G t + 1 | S t = s ]= Σ S ' Σ R Σ g t + 1 Σ P ( S ' , R , g t + 1 , | s의 ) ( R + γ g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r ∑ g t + 1 p ( s ' , r , g t + 1 | a , s ) ( r + γ g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r ∑ g t + 1 p ( s ′ , r | a , s ) p ( g t + 1 | s '' , r , a , s ) ( r + γ g t + 1 )참고 p는 ( g t + 1 | 이야 ' , R , , 이야 ) = P ( g t + 1 | 이야 ' ) MDP의 가정하여= ∑ a p ( a | s ) ∑ s ′ ′ ∑ r p ( s ′ , r | a , s ) ∑ g t + 1 p ( g t + 1 | s ' ) ( r + γ g t + 1 )= Σ P ( A는 | 이야 ) Σ S ' Σ의 R의 P ( S ' , R | , 이야 ) ( R + γ Σ g t + 1 , P ( g t + 1 | 이야 ' ) g t + 1 )= Σ P ( A는 | 이야 ) Σ S ' Σ의 R의 P ( 들 ' , R은 | A는 , s의 ) ( R + γ 브이 π ( S ' ) )
What's with the following approach?
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=∑aπ(a∣s)∑s′∑rp(s′,r∣s,a)⋅Eπ[Rt+1+γGt+1∣St=s,At+1=a,St+1=s′,Rt+1=r]=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvπ(s′)].
The sums are introduced in order to retrieve a
I am not sure how rigorous my argument is mathematically, though. I am open for improvements.
This is just a comment/addition to the accepted answer.
I was confused at the line where law of total expectation is being applied. I don't think the main form of law of total expectation can help here. A variant of that is in fact needed here.
If X,Y,Z
E[X|Y]=E[E[X|Y,Z]|Y]
In this case, X=Gt+1
E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s′|St=s]
From there, one could follow the rest of the proof from the answer.
Eπ(⋅)
It looks like r
Thus, the expectation accounts for the policy probability as well as the transition and reward functions, here expressed together as p(s′,r|s,a)
even though the correct answer has already been given and some time has passed, I thought the following step by step guide might be useful:
By linearity of the Expected Value we can split E[Rt+1+γE[Gt+1|St=s]]
I will outline the steps only for the first part, as the second part follows by the same steps combined with the Law of Total Expectation.
E[Rt+1|St=s]=∑rrP[Rt+1=r|St=s]=∑a∑rrP[Rt+1=r,At=a|St=s](III)=∑a∑rrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=∑s′∑a∑rrP[St+1=s′,Rt+1=r|At=a,St=s]P[At=a|St=s]=∑aπ(a|s)∑s′,rp(s′,r|s,a)r
Whereas (III) follows form:
P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]
I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over s
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule(∑a∑b∑cabc≡∑aa∑bb∑cc
Part 1
∑a0π(a0|s0)∑a1,...aT∑s1,...sT∑r1,...rT(T−1∏t=0π(at+1|st+1)p(st+1,rt+1|st,at)×r1)
Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to r1
Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.
∑a0π(a0|s0)∑a1,...aT∑s1,...sT∑r1,...rT(T−1∏t=0π(at+1|st+1)p(st+1,rt+1|st,at))=∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)(∑a1π(a1|s1)∑a2,...aT∑s2,...sT∑r2,...rT(T−2∏t=0π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))
And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with γ∑T−2t=0γtrt+2
and part 2 becomes
∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)×γvπ(s1)
Part 1 + Part 2
vπ(s0)=∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))
And now if we can tuck in the time dimension and recover the general recursive formulae
vπ(s)=∑aπ(a|s)∑s′,rp(s′,r|s,a)×(r+γvπ(s′))
Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am
There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,
Gt≐T∑k=t+1γk−t−1Rk
is defined in equation 3.11 of Sutton and Barto, with a constant discount factor 0≤γ≤1
vπ(s)≐Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
That last line follows from the linearity of expectation values. Rt+1
Work on the first term. In words, I need to compute the expectation values of Rt+1
Eπ[Rt+1|St=s]=∑r∈Rrp(r|s).
In other words the probability of the appearance of reward r
p(r|s)=∑s′∈S∑a∈Ap(s′,a,r|s)=∑s′∈S∑a∈Aπ(a|s)p(s′,r|a,s).
Where I have used π(a|s)≐p(a|s)
Eπ[Rt+1|St=s]=∑r∈R∑s′∈S∑a∈Arπ(a|s)p(s′,r|a,s),
as required. On to the second term, where I assume that Gt+1
Eπ[Gt+1|St=s]=∑g∈Γgp(g|s).(∗)
Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)
p(g|s)=∑r∈R∑s′∈S∑a∈Ap(s′,r,a,g|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r,a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r|a,s)π(a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r|a,s)π(a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′)p(s′,r|a,s)π(a|s)(∗∗)
The last line in there follows from the Markovian property. Remember that Gt+1
γEπ[Gt+1|St=s]=γ∑g∈Γ∑r∈R∑s′∈S∑a∈Agp(g|s′)p(s′,r|a,s)π(a|s)=γ∑r∈R∑s′∈S∑a∈AEπ[Gt+1|St+1=s′]p(s′,r|a,s)π(a|s)=γ∑r∈R∑s′∈S∑a∈Avπ(s′)p(s′,r|a,s)π(a|s)
as required, once again. Combining the two terms completes the proof
vπ(s)≐Eπ[Gt∣St=s]=∑a∈Aπ(a|s)∑r∈R∑s′∈Sp(s′,r|a,s)[r+γvπ(s′)].
UPDATE
I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with (∗), I use a term p(g|s) and then later in the equation marked (∗∗) I claim that g doesn't depend on s, by arguing the Markovian property. So, you might say that if this is the case, then p(g|s)=p(g). But this is not true. I can take p(g|s′,r,a,s)→p(g|s′) because the probability on the left side of that statement says that this is the probability of g conditioned on s′, a, r, and s. Because we either know or assume the state s′, none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state s′, then the future rewards (the meaning of g) will depend on which state you begin at, because that will determine (based on the policy) which state s′ you start at when computing g.
If that argument doesn't convince you, try to compute what p(g) is:
p(g)=∑s′∈Sp(g,s′)=∑s′∈Sp(g|s′)p(s′)=∑s′∈Sp(g|s′)∑s,a,rp(s′,a,r,s)=∑s′∈Sp(g|s′)∑s,a,rp(s′,r|a,s)p(a,s)=∑s∈Sp(s)∑s′∈Sp(g|s′)∑a,rp(s′,r|a,s)π(a|s)≐∑s∈Sp(s)p(g|s)=∑s∈Sp(g,s)=p(g).
As can be seen in the last line, it is not true that p(g|s)=p(g). The expected value of g depends on which state you start in (i.e. the identity of s), if you do not know or assume the state s′.