선형 함수 근사법을 사용하여 가중치를 Q 값에 맞추는 방법


12

강화 학습에서 선형 함수 근사법은 큰 상태 공간이 존재할 때 종종 사용됩니다. 조회 테이블을 사용할 수 없게 될 때.

의 형태 선형 함수로 근사 값으로 주어진다Q

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

여기서 는 가중치이고 f i 는 피쳐입니다.wifi

기능은 사용자가 미리 정의합니다. 내 질문은 가중치가 어떻게 할당됩니까?

나는 읽기 / 일부 강의 슬라이드를 다운로드 한 기능 근사치 학습. 그들 대부분은 선형 회귀에 관한 슬라이드를 가지고 있습니다. 슬라이드 일 뿐이므로 불완전한 경향이 있습니다. 두 주제 사이의 연결 / 관계가 무엇인지 궁금합니다.Q

답변:


11

f(s,a)Q(s,a)Q(s,a)w

다음은 를 학습하기위한 일반적인 알고리즘입니다.Q(s,a)

  • w=(w1,w2,....,wn)
  • 각 에피소드마다 :

    1. s
    2. aπϵ
    3. ars
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    될 때까지 2-5를 반복하십시오.s

어디 ...

  • α[0,1]
  • γ[0,1]
  • maxaQ(s,a)asQ(s,a)
  • wQ(s,a)Q(s,a)w(f1(s,a),...,fn(s,a))

매개 변수 / 가중치 업데이트 (4 단계)는 다음과 같은 방식으로 읽을 수 있습니다.

  • (r+γmaxaQ(s,a))(Q(s,a))Q(s,a)Q(s,a)r γmaxaQ(s,a)
  • wQ(s,a)α

주 원천:

8 장 (전체 권장) 책의 값 근사Q(s,a)V(s)e

더 많은 참조


2
Barto & Sutton의 깨진 링크! 이제 여기-> incompleteideas.net/book/the-book.html :) 그리고 ebook incompleteideas.net/book/ebook으로 그러나 mobi 파일을 찾을 위치를 모릅니다
grisaitis

1
각 요소가 fi (s, a) 인 wa 열 벡터와 관련하여 Q (s, a)의 기울기가 아니라 모든 fi의 합산이 아닙니까? 목표는 곱하는 피처의 값에 따라 각 가중치가 변경되는 것입니다.
미구엘 사라이 바

@MiguelSaraiva 예, 수정했습니다. 대단히 감사합니다.
steffen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.