정책 외 학습과 정책 외 학습의 차이점은 무엇입니까?


78

인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다.

"외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 "

그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 당신의 설명을 부탁하고 싶습니다. 두 정의가 모두 동일한 것 같습니다. 내가 실제로 이해 한 것은 모델이없는 모델 기반 학습이며, 문제가있는 학습과 관련이 있는지 모르겠습니다.

상담원의 행동과는 별도로 최적의 정책을 배우는 것이 어떻게 가능합니까? 에이전트가 작업을 수행 할 때 정책이 학습되지 않습니까?


1
내가하는 코멘트를 추가 stackoverflow.com/questions/6848828/...TL을, NR의 부분도 이해에 도움이 될 수 있습니다.
zyxue

여기에 좋은 설명입니다 nb4799.neu.edu/wordpress/?p=1850은
이반 쿠시

또한 SARSA에는 정책 외의 변형이 있다고 덧붙이고 싶습니다. 이 백서 ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf )는 소개의 정책을 검토하고 해제 한 후 예상되는 sarsa를 설명합니다. 또한 예상 정책 그라디언트 (EPG)를 찾아 두 가지 유형을 통합하는보다 일반적인 이론을 찾으십시오.
Josh Albert

답변:


93

우선, 요원이 탐욕스러운 행동 을해야 할 이유가 없다 . 상담원은 탐색 하거나 옵션 을 따를 수 있습니다 . 이것은 정책 정책을 정책 외 학습과 분리하는 것이 아닙니다.

Q- 러닝이 정책 외의 이유는 다음 주 의 Q- 값 과 욕심 많은 행동 사용하여 Q- 값을 업데이트하기 때문 입니다. 다시 말해, 탐욕 정책을 따르지 않는다는 사실에도 불구하고 탐욕 정책을 따른다고 가정 할 때 국가 행동 쌍에 대한 수익 (총 할인 된 미래 보상)을 추정합니다 .sa ' a

사르 사 온 정책이라는 이유는 다음 상태의 Q 값 사용하여 Q-값을 갱신하도록 인 과 현재 정책의 동작 . 현재 정책을 계속 준수한다고 가정하면 상태-조치 쌍에 대한 수익을 추정합니다.s"a

현재 정책이 욕심 많은 정책 인 경우 구별이 사라집니다. 그러나 그러한 에이전트는 탐색하지 않기 때문에 좋지 않습니다.

온라인에서 무료로 제공되는 책을 보셨습니까? Richard S. Sutton과 Andrew G. Barto. 강화 학습 : 소개. 제 2 판, MIT Press, Cambridge, MA, 2018.


8
좋은 설명! Q-learning에 대한 귀하의 예는 Sutton의 저서에서 다음과 같이 공식화되었습니다. " 학습 된 행동 가치 함수 Q는 정책 준수와 상관없이 최적의 행동 가치 함수 인 Q *와 직접 근사합니다. 알고리즘 분석 및 초기 수렴 증명 가능 정책은 여전히 ​​어떤 상태-작업 쌍이 방문 및 업데이트되는지를 결정하는 효과가 있습니다. "
Ciprian Tomoiagă

3
일반적으로 Sutton과 Barto는 전혀 읽을 수 없습니다. 그들이 제공하는 설명이 이해하기 쉽지 않다는 것을 알았습니다. 나는 왜 그들의 책이 사방에 추천되는지 확실하지 않다
SN

@SN 강화 학습의 많은 학생들에게 Sutton과 Barto는 그들이 처음 읽은 책입니다.
Neil G

3
@JakubArnold는 원래 Sutton & Barto 서적은 1998 년부터 시작되었으며 심층 강화 학습을 다루지 않습니다. 2 판에서는 AlphaGo와 같은 내용 만 언급하지만이 책의 초점은보다 고전적인 접근 방식입니다. 더 많은 RL 리소스를 원하면 이 목록을 살펴보십시오 . David Silver의 비디오와 Puterman의 책이 더 접근하기 쉬워집니다. 더 이론적 인 자료는 Bertsekas의 책을 추천합니다. Spinning Up 웹 사이트에서 DRL 알고리즘과 원본 논문에 대한 링크를 살펴보십시오.
Douglas De Rizzo Meneghetti

1
@AlbertChen "이 경우 탐색 여부에 따라 달라집니다.": 아니요. 두 알고리즘 모두 탐색하기 때문입니다. 차이점은 Q가 업데이트되는 방식입니다.
닐 G

12

정책 내 방법은 정책을 제어에 사용하면서 정책의 가치를 추정합니다.

에서는 오프 정책 방식, 동작을 생성하는 데 사용되는 정책은, 착신 동작 평가 및 개선 정책에 무관 할 수 있고, 정책을 호출 추정 정책.

이 분리의 장점은 추정 정책이 결정론적일 수 있고 (예 : 탐욕스러운) 행동 정책이 모든 가능한 조치를 계속 샘플링 할 수 있다는 것입니다.

자세한 내용은 Reinforcement Learning : Introduction to Barto and Sutton, first edition의 섹션 5.4 및 5.6을 참조하십시오 .


7

정책 외 방법과 정책 외 방법의 차이점은 특정 정책을 처음으로 따를 필요가 없으므로 에이전트가 무작위로 행동 할 수 있으며 그럼에도 불구하고 정책 외 방법으로도 최적의 정책을 찾을 수 있다는 것입니다. 반면에 정책에 따라 방법은 사용되는 정책에 따라 다릅니다. 정책 외의 Q-Learning의 경우 탐색 중에 사용 된 정책과 관계없이 최적의 정책을 찾게되지만 다른 주를 충분히 방문한 경우에만 해당됩니다. Watkins 의 오리지널 논문 에서 Q-Learning의 매우 훌륭한 속성을 보여주는 실제 증거를 찾을 수 있습니다 . 그러나 트레이드 오프 (trade-off)가 있으며, 오프 정책 방법은 정책 정책 방법보다 속도가 느린 경향이 있습니다. 다른 흥미로운 요약 과의 링크 두 가지 유형의 메소드의 특성


1
정책 외 방법은 속도가 느릴뿐만 아니라 부트 스트래핑 (예 : Q- 러닝이 서로 추정값을 작성하는 방법) 및 함수 근 사기 (예 : 신경망)와 결합 될 때 불안정 할 수 있습니다.
Neil Slater

7

우선, 실제로 정책 ( 로 표시 )의 의미는 무엇입니까? 정책 액션 지정 즉 촬영되며, 상태 (또는보다 정확하게 확률이 작용하는 것이있다 상태에서 촬영 ).πa s π a s
asπas


Q(s,a)as
ππ(a|s)

Q(s,a)


Q(s,a)π
Q(s,a)

Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))' S 'as


1

서튼의 책에서 : "이전 섹션의 정책에 근거한 접근 방식은 실제로 타협입니다. 최적의 정책이 아니라 여전히 탐색중인 거의 최적의 정책에 대한 행동 가치를 배웁니다.보다 직접적인 접근 방식은 두 가지 정책을 사용하는 것입니다. 학습되고 최적의 정책이되는 정책과 탐색 적이며 행동을 생성하는 데 사용되는 정책을 대상 정책이라고하며 행동을 생성하는 데 사용되는 정책을 행동 정책이라고합니다. 이 경우 우리는 학습이 목표 정책“o data”데이터를 통해 이루어지며 전체 프로세스를 o-policy learning이라고합니다.


이 설명을 따르면 Q- 러닝이 정책을 벗어난 이유를 쉽게 알 수 없습니다.
Albert Chen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.