모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?


28

모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?

시행 착오를 통해 학습하는 모든 모델 프리 학습자는 모델 기반으로 재구성 될 수있는 것 같습니다. 그렇다면 언제 모델이없는 학습자가 적절한가?


이 답변을 참조하십시오 : qr.ae/TUtHbv .
nbro

모델이없는 학습자를 모델 기반으로 재구성 할 수 있다는 의미는 무엇입니까?
HelloGoodbye

답변:


14

에이전트는 모델 기반 강화 학습을 통해 세상을 이해하고이를 나타내는 모델을 만들려고합니다. 여기서 모델은 상태 의 전이 함수 와 보상 함수 두 가지 함수를 캡처하려고합니다 . 이 모델에서 상담원은 참조를 가지며 그에 따라 계획 할 수 있습니다.TR

그러나 모델을 학습 할 필요는 없으며 상담원은 Q- 러닝 또는 정책 그라디언트와 같은 알고리즘을 사용하여 정책을 직접 학습 할 수 있습니다.

RL 알고리즘이 모델 기반인지 모델이 없는지 확인하는 간단한 방법은 다음과 같습니다.

학습 후 상담원이 각 작업을 수행하기 전에 다음 상태와 보상이 무엇인지 예측할 수 있으면 모델 기반 RL 알고리즘입니다.

그것이 가능하지 않다면, 그것은 모델이없는 알고리즘입니다.


2
당신의 말로, "모델을 배울 필요가 없습니다", 그리고 내 질문은 : 왜 누군가가 모델 기반 접근법을 택할 것인가?
vin

4
제가 생각할 수있는 한 가지 큰 예는 상담원이 실제로 어떤 것도 최적화하지 않고 주변 환경에 대해 배우기를 원할 때입니다. 이것은 지속적인 학습 문제의 일부입니다. "거리 센서가 벽을 읽을 때 벽에 부딪쳤을 때"와 같은 내부 모델을 구축해야합니다. 그러면 상담원이 해당 정보를 여러 작업에 일반화 할 수 있습니다.
Jaden Travnik

2
@Jaden Travnik에게 감사합니다. 나는 어떤 일을 해결하지 않고 (예를 들어 부엌으로 이동) 환경의 표현을 배우는 것이 왜 유용한 지 이해한다 ( "거리가 벽에 가까울 때 벽에 부딪쳤다"). 그러나 왜 이것이 바닐라 감독 학습 과제가 아닌 모델이없는 RL 로 간주 됩니까?
Vin

2
레이블이 지정된 데이터가 없으므로지도 학습이되지 않습니다. 에이전트는 신호가 무엇을 의미하는지 전혀 알지 못하므로 온도계로부터 거리 센서를 알 수 없었습니다. 에이전트가 배우는 것은 다른 신호를 기반으로 한 신호 예측이며, 이는 자체 세계 모델입니다.
Jaden Travnik

2
모델 기반 접근 방식을 통해 상담원은 원래 설명에 따라 다음 상태를 예측하는 방법을 배웁니다. <x, y>를 학습함으로써 x는 (s1, action)이고 y는 (s2, reward)입니다. IM이 잘못 해석하지만 미안하지만지도 학습이 아닌가?
vin

12

모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?

강화 학습에서 용어는 "모델 기반"과 "모델이없는이"할 수 없습니다 후자는 다음과 같이 사용될 수 있지만 (다음 상태를 예측하는 데에도 값을 예측하는 신경망이나 다른 통계 학습 모델의 사용을 참조하거나 모델 기반 알고리즘의 일부이며 알고리즘이 모델 기반인지 또는 모델 프리인지에 관계없이 "모델"이라고합니다.

대신,이 용어는 학습 또는 행동 중 에이전트가 환경 반응의 예측을 사용하는지 여부를 엄격히 나타냅니다. 상담원은 다음 보상 및 다음 상태 모델 (샘플)로부터 단일 예측을 사용하거나, 예상되는 다음 보상 또는 다음 상태 및 다음 보상 의 전체 분포 를 모델에 요청할 수 있습니다 . 이러한 예측은 예를 들어 주사위 또는 보드 게임의 규칙을 이해하는 컴퓨터 코드에 의해 학습 에이전트 외부에서 제공 될 수 있습니다. 또는 에이전트가 학습 할 수 있으며,이 경우 대략적인 값이됩니다.

구현 된 환경 모델이 있다고해서 RL 에이전트가 "모델 기반"이라는 의미는 아닙니다. "모델 기반"자격을 갖추려면 학습 알고리즘이 모델을 명시 적으로 참조해야합니다.

  • Monte Carlo Control, SARSA, Q-learning, Actor-Critic과 같은 경험에서 순수하게 샘플링 된 알고리즘은 "모델이없는"RL 알고리즘입니다. 그들은 환경의 실제 샘플에 의존하고 행동을 변경하기 위해 생성 된 다음 상태 및 다음 보상에 대한 예측을 사용하지 않습니다 (모델과 가까운 경험 메모리에서 샘플링 할 수는 있음).

  • 고전적인 모델 기반 알고리즘은 동적 프로그래밍 (정책 반복 및 값 반복)입니다. 이들은 모두 최적의 동작을 계산하기 위해 모델의 다음 상태 및 보상에 대한 예측 또는 분포를 사용합니다. 특히 동적 프로그래밍에서 모델은 상태 전이 확률과 모든 상태, 조치 쌍의 예상 보상을 제공해야합니다. 이것은 거의 학습 된 모델이 아닙니다.

  • 제어 시스템으로 작동하고 조치를 취하려면 상태 값만 사용하는 기본 TD 학습도 모델 기반이어야합니다. 최선의 조치를 선택하려면 각 조치에서 발생하는 상황을 예측하는 모델을 조회하고 π(에스)=argmax에이에스',아르 자형(에스',아르 자형|에스,에이)(아르 자형+V(에스'))(에스',아르 자형|에스,에이) 보상받을 확률아르 자형 과 다음 상태에스' 액션 촬영시에이 상태에스 . 그 함수(에스',아르 자형|에스,에이) 기본적으로 모델입니다.

RL 문헌은 "모델 기반"및 "모델이없는"학습을위한 환경의 모델 인 "모델"과 신경망과 같은 통계 학습자의 사용을 구분합니다.

RL에서 신경망은 종종 상태와 행동 쌍이 주어지면 총 수익 (할인 된 보상의 합계)을 예측하는 Q 값과 같은 가치 기능을 배우고 일반화하는 데 사용됩니다. 이러한 훈련 된 신경망은 예를 들어지도 학습에서 "모델"로 불린다. 그러나 RL 문헌에는 모호성을 피하기 위해 이러한 네트워크에 사용되는 "함수 근 사기"라는 용어가 표시됩니다.

시행 착오를 통해 학습하는 모든 모델 프리 학습자는 모델 기반으로 재구성 될 수있는 것 같습니다.

여기서는 "모델"이라는 단어에 대한 일반적인 이해를 통해 유용한 예측을하는 구조를 포함한다고 생각합니다. 이는 SARSA의 Q 값 표에 적용됩니다.

그러나 위에서 설명한 것처럼 RL에서이 용어가 사용되는 방식은 아닙니다. 따라서 RL이 유용한 내부 표현을 작성한다는 사실은 이해하기 쉽지만, "모델이없는"모델을 "모델 기반"으로 재구성하는 데 사용할 수 있다는 것은 기술적으로 정확하지 않습니다. 이러한 용어는 RL에서 매우 특정한 의미를 갖기 때문입니다. .

그렇다면 언제 모델이없는 학습자가 적절한가?

일반적으로 RL의 최신 기술에서 문제 정의의 일부로 제공되는 정확한 모델이없는 경우 모델없는 접근 방식이 종종 우수합니다.

환경에 대한 예측 모델을 구축하는 에이전트에 대한 관심이 많으며, "부작용"(여전히 모델이없는 알고리즘 임에도 불구하고)으로서 유용한 것은 신경 네트워크를 정규화하거나 주요 예측을 발견하는 데 도움이 될 수 있습니다. 정책 또는 가치 네트워크에서도 사용할 수있는 기능. 그러나 계획을 위해 자체 모델을 학습하는 모델 기반 에이전트는 이러한 모델의 부정확성으로 인해 불안정성이 발생할 수 있다는 문제가 있습니다. 계획 중에 학습 된 모델을 언제, 얼마나 신뢰해야하는지 결정하기 위해 상상력에 기초한 에이전트 및 / 또는 메커니즘을 사용하여 유망한 내부 활동이 이루어지고 있습니다.

지금 (2018 년), 명시 적으로 알려진 모델이없는 환경에서 실제 문제가 발생하면 가장 안전한 방법은 DQN 또는 A3C와 같은 모델이없는 접근법을 사용하는 것입니다. 현장이 빠르게 움직이고 몇 년 안에 더 복잡한 새로운 아키텍처가 표준이 될 수 있으므로 변경 될 수 있습니다.


1
작은 수정, 일반적으로 "모델 기반"또는 "모델이없는"이라는 용어는 MCTS와 같은 알고리즘을 계획하는 데 사용되지 않습니다. 학습 알고리즘을 분류하는 데만 사용됩니다.
Miguel Saraiva

@ MiguelSaraiva : 나는 그것에 대해 100 % 확신하지 않지만 MCTS에 대한 참조를 제거했습니다. 이 용어의 사용 제한에 관해 DynaQ를 어디에 배치 하시겠습니까? 알고리즘이 모두 MDP 모델과 정책 개선에 대한 공통된 견해를 공유 할 때 계획과 학습 사이의 경계가 어디에 있는지 파악하기가 까다로워집니다.
Neil Slater

나는 틀릴 수 있었다, 나는 지역의 초보자이다. 나는 같은 말을 한 후에 현장에서 선생님이 그 의견을 말한 것을 기억합니다.
Miguel Saraiva

5

강화 학습 (RL) 에는 환경 과 상호 작용 하는 에이전트있습니다 (시간 단계). 각 시간 단계에서 에이전트를 결정하고 실행하는 작업을 , 현재 이동하면서 에이전트에 대한 환경 및 환경 응답의 상태 (환경), s의 다음 상태 (환경) S ' , 및 착신 스칼라 신호를 방출함으로써 보상 , R . 원칙적으로이 상호 작용은 에이전트가 죽을 때까지 또는 영원히 계속 될 수 있습니다.에이에스에스'아르 자형

에이전트의 주요 목표는 "장기적으로"가장 많은 보상을 수집하는 것입니다. 그러기 위해서는 에이전트가 최적의 정책을 찾아야합니다 (대략 환경에서 작동하기위한 최적의 전략). 일반적으로, 정책은 환경의 현재 상태가 주어진 경우 환경에서 실행할 조치 (또는 정책이 확률 적 이면 조치에 대한 확률 분포)를 출력하는 기능 입니다. 따라서 정책은 에이전트가이 환경에서 동작하기 위해 사용하는 "전략"으로 생각할 수 있습니다. 최적의 정책 (주어진 환경에 대한)은 준수 할 경우 장기적으로 에이전트가 가장 많은 보상을 수집하도록하는 정책입니다 (이는 에이전트의 목표 임). RL에서는 최적의 정책을 찾는 데 관심이 있습니다.

환경은 결정적 (즉, 거의 동일한 상태에서 동일한 조치가 모든 시간 단계에 대해 동일한 다음 상태로 이어짐)이거나 확률 적 (또는 비 결정적) 일 수 있습니다. 즉, 에이전트가 특정 상태에서 환경의 다음 상태는 항상 동일하지 않을 수도 있습니다. 특정 상태이거나 다른 상태 일 가능성이 있습니다. 물론 이러한 불확실성으로 인해 최적의 정책을 찾는 작업이 더욱 어려워 질 것입니다.

RL에서 문제는 종종 Markov 의사 결정 프로세스 (MDP) 로 수학적으로 공식화됩니다 . MDP는 환경의 "역학", 즉 주어진 상태에서 에이전트가 취할 수있는 조치에 환경이 반응하는 방식을 나타내는 방법입니다. 보다 정확하게는, MDP에는 전이 기능 (또는 "전이 모델") 이 장착되어 있는데 , 이는 환경의 현재 상태와 조치 (에이전트가 취할 수있는 조치)를 고려하여 다음 주 중 보상 기능MDP 와도 관련되어 있습니다. 직관적으로 보상 기능은 현재 환경 상태 (및 에이전트가 수행 한 조치 및 환경의 다음 상태)를 고려하여 보상을 출력합니다. 종합적으로 전환 및 보상 기능 을 환경 모델 이라고 합니다. 결론적으로 MDP는 문제이며 문제에 대한 해결책은 정책입니다. 또한 환경의 "동역학"은 전환 및 보상 기능 (즉, "모델")에 의해 관리됩니다.

그러나 우리는 종종 MDP가 없습니다. 즉, 환경과 관련된 MDP의 전환 및 보상 기능이 없습니다. 따라서 우리는 MDP로부터 정책을 알 수 없기 때문에 추정 할 수 없습니다. 일반적으로 환경과 관련된 MDP의 전환 및 보상 기능이있는 경우이를 활용하여 최적의 정책 (동적 프로그래밍 알고리즘 사용)을 검색 할 수 있습니다.

이러한 기능이없는 경우 (즉, MDP를 알 수없는 경우) 최적 정책을 추정하려면 에이전트가 환경과 상호 작용하고 환경의 응답을 관찰해야합니다. 에이전트는 환경의 역학에 대한 신념 을 강화 하여 정책을 추정해야하기 때문에이를 종종 "강화 학습 문제"라고 합니다. 시간이 지남에 따라 에이전트는 환경이 작업에 응답하는 방식을 이해하기 시작하여 최적의 정책을 추정 할 수 있습니다. 따라서, RL 문제에서, 에이전트는 ( "시도 및 오류"접근법을 사용하여) 상호 작용함으로써 알 수없는 (또는 부분적으로 알려진) 환경에서 행동하는 최적의 정책을 추정한다.

이와 관련하여 모델 기반알고리즘은 최적의 정책을 추정하기 위해 전환 기능 (및 보상 기능)을 사용하는 알고리즘입니다. 상담원은 전환 기능 및 보상 기능의 근사치에만 액세스 할 수 있으며, 환경과 상호 작용하는 동안 상담원이 학습하거나 상담원에게 제공 할 수 있습니다 (예 : 다른 상담원). 일반적으로, 모델 기반 알고리즘에서 에이전트는 전환 기능 (및 보상 기능)의 추정치가 있기 때문에 (학습 단계 중 또는 이후) 환경의 역학을 잠재적으로 예측할 수 있습니다. 그러나 상담원이 최적의 정책을 추정하기 위해 사용하는 전환 및 보상 기능은 "참"기능의 근사치 일 수 있습니다. 따라서 이러한 근사치 때문에 최적의 정책을 찾지 못할 수도 있습니다.

모델없는 알고리즘은 환경의 동적 (전이 및 보상 기능)을 사용하지 않고 또는 예측 최적 정책을 추정하는 알고리즘이다. 실제로, 모델이없는 알고리즘은 전환 기능이나 보상 기능을 사용하지 않고 경험에서 직접 "가치 함수"또는 "정책"(즉, 에이전트와 환경 간의 상호 작용)을 추정합니다. 값 함수는 모든 상태에 대해 상태 (또는 상태에서 취한 조치)를 평가하는 함수로 생각할 수 있습니다. 이 값 함수에서 정책을 파생시킬 수 있습니다.

실제로 모델 기반 또는 모델이없는 알고리즘을 구별하는 한 가지 방법은 알고리즘을보고 전환 또는 보상 기능을 사용하는지 확인하는 것입니다.

예를 들어 Q- 러닝 알고리즘 의 주요 업데이트 규칙을 살펴 보겠습니다 .

(에스,에이)(에스,에이)+α(아르 자형+1+γ최대에이(에스+1,에이)(에스,에이))

보시다시피이 업데이트 규칙은 MDP에 의해 정의 된 확률을 사용하지 않습니다. 노트 :아르 자형+1다음 단계 (행동을 취한 후)에서 얻은 보상 일 뿐이지 만 반드시 사전에 알려지지는 않았습니다. 따라서 Q- 러닝은 모델이없는 알고리즘입니다.

이제 정책 개선 알고리즘 의 주요 업데이트 규칙을 살펴 보겠습니다 .

(에스,에이)에스'에스,아르 자형아르 자형(에스',아르 자형|에스,에이)(아르 자형+γV(에스'))

우리는 그것이 사용하는 것을 즉시 볼 수 있습니다 (에스',아르 자형|에스,에이), MDP 모델에 의해 정의 된 확률. 따라서 정책 개선 알고리즘을 사용하는 정책 반복 (동적 프로그래밍 알고리즘)은 모델 기반 알고리즘입니다.


2

모델 프리 RL

Model-Free RL에서 에이전트는 환경 모델에 액세스 할 수 없습니다. 환경 적으로 나는 상태 전이와 보상을 예측하는 기능을 의미합니다.

글을 쓰는 시점에서, 모델이없는 방법이 더 많이 사용되며 광범위하게 연구되었습니다.

모델 기반 RL

모델 기반 RL에서 에이전트는 환경 모델에 액세스 할 수 있습니다.

주요 이점은 상담원이 미리 생각함으로써 미리 계획 할 수 있다는 것입니다. 상담원은 미리 계획된 결과를 학습 된 정책으로 정리합니다. Model-Based RL의 유명한 예는 AlphaZero 입니다.

주요 단점은 환경에 대한 진실 된 표현이 일반적으로 불가능하다는 것입니다.


다음은 RL 알고리즘에 대한 포괄적 인 분류법으로 RL 환경을 더 잘 시각화하는 데 도움이 될 수 있습니다.

여기에 이미지 설명을 입력하십시오


1

OpenAI – Kinds of RL Algorithms 에 따르면 , 환경 모델, 즉 상태 전이 및 보상을 예측하는 기능을 사용하는 알고리즘을 모델 기반 방법이라고하며 모델이없는 모델 이라고 합니다 . 이 모델은 상담원에게 제공되거나 상담원이 학습 할 수 있습니다.

모델을 사용하면 상담원은 미리 생각하고 가능한 다양한 선택에 어떤 일이 발생하는지 확인하고 옵션 중에서 명시 적으로 결정함으로써 계획을 세울 수 있습니다. 보다 장기적인 사고가 필요한 문제에 직면했을 때 유용 할 수 있습니다. 계획을 수행하는 한 가지 방법은 예를 들어, 트리 검색의 일종을 사용하는 것입니다 몬테 카를로 트리 검색 (MCTS), 또는-하는 나는 또한 used-이 될 수 의심 변형 빠르게 탐색 임의 트리 (RRT)의. 예를 들어 상상하고 계획하는 요원을 참조하십시오 .

그러면 상담원은 미리 계획된 결과를 학습 된 정책으로 추출 할 수 있습니다.이를 전문가 반복이라고합니다.

모델을 사용하여 모델을 사용하여 상태가 업데이트되는 시뮬레이션 또는 "상상 된"환경을 생성하고 에이전트가 해당 환경 내에서 (예 : 월드 모델) 학습 할 수 있습니다 .

많은 실제 시나리오에서 에이전트는 환경의 실제 모델을 사용할 수 없습니다. 이 경우 상담원이 모델을 사용하려는 경우 모델을 배워야하는데, 몇 가지 이유로 어려움을 겪을 수 있습니다.

그러나 에이전트가 이미 알려진 모델을 사용하는 경우가 있으며 따라서 모델이 게임 규칙의 형태로 제공되는 AlphaZero 와 같이 모델을 배울 필요가 없습니다 .


1

몇 가지 좋은 대답이 있지만 차이점에 대한 심리적 견해 를 더하기 위해 강화 학습 : 소개 ( 303 페이지) 에서이 단락을 추가하고 싶습니다 .

모델이없는 모델과 모델 기반의 강화 학습 알고리즘의 구별은 심리학자가 학습 된 행동 패턴의 습관적 목표와 목표 지향적 제어 사이의 구별에 해당합니다. 습관은 적절한 자극에 의해 유발 된 행동 패턴이며 다소 자동으로 수행됩니다. 심리학자들이 문구를 어떻게 사용하는지에 따라 목표 지향적 행동은 목표의 가치와 행동과 결과 사이의 관계에 대한 지식에 의해 통제된다는 의미에서 목적이 있습니다. 습관은 종종 선행 자극에 의해 제어되는 것으로 알려져 있지만, 목표 지향적 행동은 그 결과에 의해 제어되는 것으로 알려져 있습니다 (Dickinson, 1980, 1985). 목표 지향 제어는 환경이 동물의 행동에 반응하는 방식을 바꿀 때 동물의 행동을 빠르게 바꿀 수 있다는 장점이 있습니다. 습관적인 행동은 익숙한 환경의 입력에 빠르게 반응하지만 환경의 변화에 ​​빠르게 적응할 수는 없습니다.

그것은 거기에서 계속 가고 있으며 나중에 좋은 예가 있습니다.

다른 답변에서 항상 설명하지 않은 요점은 모델이없는 접근법에서는 여전히 행동과 관련된 보상이 무엇인지 알려주는 환경이 필요하다는 것입니다. 가장 큰 차이점은 모델에 대한 정보를 저장할 필요가 없다는 것입니다. 선택한 조치를 환경에 제공하고 예상 정책을 업데이트하며 잊어 버립니다. 반면, 모델 기반 접근 방식에서는 동적 프로그래밍에서와 같이 상태 전이 이력을 알아야하거나 현재 상태에서 가능한 모든 다음 상태 및 관련 보상을 계산할 수 있어야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.