REINFORCE 알고리즘의 할인율이 두 번 나타나는 이유는 무엇입니까?


11

저는 Richard S. Sutton과 Andrew G. Barto의 강화 학습 : 소개 (2017 년 11 월 5 일 초안 작성) 책을 읽고있었습니다 .

271 페이지에, 일시적인 Monte-Carlo Policy-Gradient Method의 의사 코드가 제시되어 있습니다. 이 의사 코드를 보면 할인 상태가 업데이트 상태에서 한 번, 반환 내에서 두 번째로 할인율이 2 번 나타나는 이유를 이해할 수 없습니다. [아래 그림 참조]

여기에 이미지 설명을 입력하십시오

1 단계 이후의 단계에 대한 리턴은 첫 번째 단계의 리턴에 대한 절단 일뿐입니다. 또한 책에서 위의 한 페이지 만 보면 할인율이 1 인 방정식 (반품 내부)이 있습니다.

그러면 의사 코드가 다른 것처럼 보이는 이유는 무엇입니까? 내 추측은 내가 뭔가를 오해하고 있다는 것입니다.

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

답변:


5

할인 요소가 두 번 나타나며 이것이 맞습니다.

이는 일시적 문제에 대해 REINFORCE에서 최대화하려는 함수 (그라디언트 사용)가 주어진 (배포) 시작 상태에서 예상되는 리턴이기 때문입니다.

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

따라서 에피소드 중에 리턴 값 , 등 을 샘플링 할 때 해결하는 문제와 관련성이 적어 두 번째로 할인 계수만큼 감소합니다. 일시적인 문제와 경우 REINFORCE는 첫 번째 조치에 대한 최적의 정책 만 찾습니다.G 2 γ = 0G1G2γ=0

Actor-Critic과 같은 지속적인 문제에서 작동하는 다른 알고리즘은 대해 다른 공식을 사용 하므로 계수를 갖지 않습니다 .γ tJ(θ)γt


5

Neil의 답변은 의사 코드 (추가 항)가 왜 정확한지에 대한 직관을 제공 합니다.γt

나는 당신이 아무것도 오해하지 않는 것 같다는 것을 분명히하고 싶습니다 . 책의 방정식 (13.6)은 실제로 의사 코드와 다릅니다 .

자, 여기에 언급 한 책의 개정판이 없지만 2018 년 3 월 22 일부터 나중의 초안이 있으며이 특정 주제에 대한 텍스트가 비슷한 것 같습니다. 이 판에서 :

  • 326 쪽 끝 에서 정책 그라디언트 정리에 대한 증명에서 이라고 가정 합니다.γ=1
  • 이 증명은 결국 329 페이지의 동일한 방정식 (13.6)으로 이어집니다.
  • 의사 코드 바로 아래 (330 페이지)는 실제로 수식과 의사 코드의 차이를 간략하게 다루며 그 차이는 증명에서 의 가정 때문이라고 말합니다 .γ=1
  • 바로 아래에있는 연습 13.2 에서 경우에 대한 수정 된 증거를 도출하려는 경우 살펴볼 내용에 대한 힌트를 제공합니다 .γ<1

2
감사. 2017 년 초안에 세 번째 요점에 대한 설명이 없습니다.
Diego Orellana

2
@DiegoOrellana 더 이상 3 월 22 일 초안에 대한 링크를 찾을 수 없습니다 . 여기에 더 이후의 초안이 있습니다 (날짜를 찾을 수 없음) . 이 버전은 실제로 멋진 표지이므로 초안이 아닌 최종 버전 일 수도 있습니다. 앞으로 링크가 끊어지면 여기 에서 새 링크를 사용할 수있을 것 같습니다 .
Dennis Soemers

3

미묘한 문제입니다.

원본 논문 (의사 코드의 경우 p.4 및 부록 S3) 에서 A3C 알고리즘을 살펴보면 행위자 비평 알고리즘 (일화 적 문제와 계속되는 문제 모두 동일한 알고리즘)은 행위자에 대한 감마 계수에 의해 해제됩니다. Sutton and Barto 서적의 에피소드 문제에 대한 비판적 의사 코드 ( http://incompleteideas.net/book/the-book.html의 2019 년 1 월 판 p.332 ). Sutton and Barto 책에는 그림에 표시된 "첫 번째"감마가 추가로 있습니다. 그렇다면 책이나 A3C 용지가 잘못 되었습니까? 실제로는 아닙니다.

열쇠는 p.에 있습니다. 서튼과 바토의 199 권

할인이있는 경우 (감마 <1) 종료 형태로 취급해야하며, 이는 (9.2)의 두 번째 항에 인수를 포함시켜 간단하게 수행 할 수 있습니다.

미묘한 문제는 할인 요소 감마에 대한 두 가지 해석이 있다는 것입니다.

  1. 먼 미래의 보상에 가중치를 덜주는 곱셈 요소.
  2. 시뮬레이션 된 궤적이 임의의 시간 단계에서 가짜로 종료 될 확률 1-감마. 이 해석은 일시적인 경우가 아니라 일시적인 경우에만 의미가 있습니다.

리터럴 구현 :

  1. 미래의 미래 보상과 관련 수량 (V 또는 Q)에 감마를 곱하면됩니다.
  2. 각 궤적을 시뮬레이션하고 각 시간 단계에서 임의로 궤적을 종료합니다 (1-감마). 종료 된 궤적은 즉각적 또는 미래의 보상을 제공하지 않습니다.

Glnπ(a|s)

γ2Glnπ(a|s)0.81Glnπ(a|s)

Glnπ(a|s)G

감마에 대한 해석을 선택할 수 있지만 알고리즘의 결과에 유의해야합니다. 나는 개인적으로 해석 1이 더 간단하기 때문에 해석을 선호합니다. 그래서 나는 서튼과 바르 토 책이 아닌 A3C 논문의 알고리즘을 사용합니다.

귀하의 질문은 REINFORCE 알고리즘에 관한 것이지만 배우 비평가에 대해 논의했습니다. REINFORCE의 두 감마 해석 및 추가 감마와 관련하여 똑같은 문제가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.