모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?
시행 착오를 통해 학습하는 모든 모델 프리 학습자는 모델 기반으로 재구성 될 수있는 것 같습니다. 그렇다면 언제 모델이없는 학습자가 적절한가?
모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?
시행 착오를 통해 학습하는 모든 모델 프리 학습자는 모델 기반으로 재구성 될 수있는 것 같습니다. 그렇다면 언제 모델이없는 학습자가 적절한가?
답변:
에이전트는 모델 기반 강화 학습을 통해 세상을 이해하고이를 나타내는 모델을 만들려고합니다. 여기서 모델은 상태 의 전이 함수 와 보상 함수 두 가지 함수를 캡처하려고합니다 . 이 모델에서 상담원은 참조를 가지며 그에 따라 계획 할 수 있습니다.
그러나 모델을 학습 할 필요는 없으며 상담원은 Q- 러닝 또는 정책 그라디언트와 같은 알고리즘을 사용하여 정책을 직접 학습 할 수 있습니다.
RL 알고리즘이 모델 기반인지 모델이 없는지 확인하는 간단한 방법은 다음과 같습니다.
학습 후 상담원이 각 작업을 수행하기 전에 다음 상태와 보상이 무엇인지 예측할 수 있으면 모델 기반 RL 알고리즘입니다.
그것이 가능하지 않다면, 그것은 모델이없는 알고리즘입니다.
모델 프리와 모델 기반 강화 학습의 차이점은 무엇입니까?
강화 학습에서 용어는 "모델 기반"과 "모델이없는이"할 수 없습니다 후자는 다음과 같이 사용될 수 있지만 (다음 상태를 예측하는 데에도 값을 예측하는 신경망이나 다른 통계 학습 모델의 사용을 참조하거나 모델 기반 알고리즘의 일부이며 알고리즘이 모델 기반인지 또는 모델 프리인지에 관계없이 "모델"이라고합니다.
대신,이 용어는 학습 또는 행동 중 에이전트가 환경 반응의 예측을 사용하는지 여부를 엄격히 나타냅니다. 상담원은 다음 보상 및 다음 상태 모델 (샘플)로부터 단일 예측을 사용하거나, 예상되는 다음 보상 또는 다음 상태 및 다음 보상 의 전체 분포 를 모델에 요청할 수 있습니다 . 이러한 예측은 예를 들어 주사위 또는 보드 게임의 규칙을 이해하는 컴퓨터 코드에 의해 학습 에이전트 외부에서 제공 될 수 있습니다. 또는 에이전트가 학습 할 수 있으며,이 경우 대략적인 값이됩니다.
구현 된 환경 모델이 있다고해서 RL 에이전트가 "모델 기반"이라는 의미는 아닙니다. "모델 기반"자격을 갖추려면 학습 알고리즘이 모델을 명시 적으로 참조해야합니다.
Monte Carlo Control, SARSA, Q-learning, Actor-Critic과 같은 경험에서 순수하게 샘플링 된 알고리즘은 "모델이없는"RL 알고리즘입니다. 그들은 환경의 실제 샘플에 의존하고 행동을 변경하기 위해 생성 된 다음 상태 및 다음 보상에 대한 예측을 사용하지 않습니다 (모델과 가까운 경험 메모리에서 샘플링 할 수는 있음).
고전적인 모델 기반 알고리즘은 동적 프로그래밍 (정책 반복 및 값 반복)입니다. 이들은 모두 최적의 동작을 계산하기 위해 모델의 다음 상태 및 보상에 대한 예측 또는 분포를 사용합니다. 특히 동적 프로그래밍에서 모델은 상태 전이 확률과 모든 상태, 조치 쌍의 예상 보상을 제공해야합니다. 이것은 거의 학습 된 모델이 아닙니다.
제어 시스템으로 작동하고 조치를 취하려면 상태 값만 사용하는 기본 TD 학습도 모델 기반이어야합니다. 최선의 조치를 선택하려면 각 조치에서 발생하는 상황을 예측하는 모델을 조회하고 보상받을 확률 과 다음 상태 액션 촬영시 상태 . 그 함수 기본적으로 모델입니다.
RL 문헌은 "모델 기반"및 "모델이없는"학습을위한 환경의 모델 인 "모델"과 신경망과 같은 통계 학습자의 사용을 구분합니다.
RL에서 신경망은 종종 상태와 행동 쌍이 주어지면 총 수익 (할인 된 보상의 합계)을 예측하는 Q 값과 같은 가치 기능을 배우고 일반화하는 데 사용됩니다. 이러한 훈련 된 신경망은 예를 들어지도 학습에서 "모델"로 불린다. 그러나 RL 문헌에는 모호성을 피하기 위해 이러한 네트워크에 사용되는 "함수 근 사기"라는 용어가 표시됩니다.
시행 착오를 통해 학습하는 모든 모델 프리 학습자는 모델 기반으로 재구성 될 수있는 것 같습니다.
여기서는 "모델"이라는 단어에 대한 일반적인 이해를 통해 유용한 예측을하는 구조를 포함한다고 생각합니다. 이는 SARSA의 Q 값 표에 적용됩니다.
그러나 위에서 설명한 것처럼 RL에서이 용어가 사용되는 방식은 아닙니다. 따라서 RL이 유용한 내부 표현을 작성한다는 사실은 이해하기 쉽지만, "모델이없는"모델을 "모델 기반"으로 재구성하는 데 사용할 수 있다는 것은 기술적으로 정확하지 않습니다. 이러한 용어는 RL에서 매우 특정한 의미를 갖기 때문입니다. .
그렇다면 언제 모델이없는 학습자가 적절한가?
일반적으로 RL의 최신 기술에서 문제 정의의 일부로 제공되는 정확한 모델이없는 경우 모델없는 접근 방식이 종종 우수합니다.
환경에 대한 예측 모델을 구축하는 에이전트에 대한 관심이 많으며, "부작용"(여전히 모델이없는 알고리즘 임에도 불구하고)으로서 유용한 것은 신경 네트워크를 정규화하거나 주요 예측을 발견하는 데 도움이 될 수 있습니다. 정책 또는 가치 네트워크에서도 사용할 수있는 기능. 그러나 계획을 위해 자체 모델을 학습하는 모델 기반 에이전트는 이러한 모델의 부정확성으로 인해 불안정성이 발생할 수 있다는 문제가 있습니다. 계획 중에 학습 된 모델을 언제, 얼마나 신뢰해야하는지 결정하기 위해 상상력에 기초한 에이전트 및 / 또는 메커니즘을 사용하여 유망한 내부 활동이 이루어지고 있습니다.
지금 (2018 년), 명시 적으로 알려진 모델이없는 환경에서 실제 문제가 발생하면 가장 안전한 방법은 DQN 또는 A3C와 같은 모델이없는 접근법을 사용하는 것입니다. 현장이 빠르게 움직이고 몇 년 안에 더 복잡한 새로운 아키텍처가 표준이 될 수 있으므로 변경 될 수 있습니다.
강화 학습 (RL) 에는 환경 과 상호 작용 하는 에이전트 가 있습니다 (시간 단계). 각 시간 단계에서 에이전트를 결정하고 실행하는 작업을 , 현재 이동하면서 에이전트에 대한 환경 및 환경 응답의 상태 (환경), s의 다음 상태 (환경) S ' , 및 착신 스칼라 신호를 방출함으로써 보상 , R . 원칙적으로이 상호 작용은 에이전트가 죽을 때까지 또는 영원히 계속 될 수 있습니다.
에이전트의 주요 목표는 "장기적으로"가장 많은 보상을 수집하는 것입니다. 그러기 위해서는 에이전트가 최적의 정책을 찾아야합니다 (대략 환경에서 작동하기위한 최적의 전략). 일반적으로, 정책은 환경의 현재 상태가 주어진 경우 환경에서 실행할 조치 (또는 정책이 확률 적 이면 조치에 대한 확률 분포)를 출력하는 기능 입니다. 따라서 정책은 에이전트가이 환경에서 동작하기 위해 사용하는 "전략"으로 생각할 수 있습니다. 최적의 정책 (주어진 환경에 대한)은 준수 할 경우 장기적으로 에이전트가 가장 많은 보상을 수집하도록하는 정책입니다 (이는 에이전트의 목표 임). RL에서는 최적의 정책을 찾는 데 관심이 있습니다.
환경은 결정적 (즉, 거의 동일한 상태에서 동일한 조치가 모든 시간 단계에 대해 동일한 다음 상태로 이어짐)이거나 확률 적 (또는 비 결정적) 일 수 있습니다. 즉, 에이전트가 특정 상태에서 환경의 다음 상태는 항상 동일하지 않을 수도 있습니다. 특정 상태이거나 다른 상태 일 가능성이 있습니다. 물론 이러한 불확실성으로 인해 최적의 정책을 찾는 작업이 더욱 어려워 질 것입니다.
RL에서 문제는 종종 Markov 의사 결정 프로세스 (MDP) 로 수학적으로 공식화됩니다 . MDP는 환경의 "역학", 즉 주어진 상태에서 에이전트가 취할 수있는 조치에 환경이 반응하는 방식을 나타내는 방법입니다. 보다 정확하게는, MDP에는 전이 기능 (또는 "전이 모델") 이 장착되어 있는데 , 이는 환경의 현재 상태와 조치 (에이전트가 취할 수있는 조치)를 고려하여 다음 주 중 보상 기능MDP 와도 관련되어 있습니다. 직관적으로 보상 기능은 현재 환경 상태 (및 에이전트가 수행 한 조치 및 환경의 다음 상태)를 고려하여 보상을 출력합니다. 종합적으로 전환 및 보상 기능 을 환경 모델 이라고 합니다. 결론적으로 MDP는 문제이며 문제에 대한 해결책은 정책입니다. 또한 환경의 "동역학"은 전환 및 보상 기능 (즉, "모델")에 의해 관리됩니다.
그러나 우리는 종종 MDP가 없습니다. 즉, 환경과 관련된 MDP의 전환 및 보상 기능이 없습니다. 따라서 우리는 MDP로부터 정책을 알 수 없기 때문에 추정 할 수 없습니다. 일반적으로 환경과 관련된 MDP의 전환 및 보상 기능이있는 경우이를 활용하여 최적의 정책 (동적 프로그래밍 알고리즘 사용)을 검색 할 수 있습니다.
이러한 기능이없는 경우 (즉, MDP를 알 수없는 경우) 최적 정책을 추정하려면 에이전트가 환경과 상호 작용하고 환경의 응답을 관찰해야합니다. 에이전트는 환경의 역학에 대한 신념 을 강화 하여 정책을 추정해야하기 때문에이를 종종 "강화 학습 문제"라고 합니다. 시간이 지남에 따라 에이전트는 환경이 작업에 응답하는 방식을 이해하기 시작하여 최적의 정책을 추정 할 수 있습니다. 따라서, RL 문제에서, 에이전트는 ( "시도 및 오류"접근법을 사용하여) 상호 작용함으로써 알 수없는 (또는 부분적으로 알려진) 환경에서 행동하는 최적의 정책을 추정한다.
이와 관련하여 모델 기반알고리즘은 최적의 정책을 추정하기 위해 전환 기능 (및 보상 기능)을 사용하는 알고리즘입니다. 상담원은 전환 기능 및 보상 기능의 근사치에만 액세스 할 수 있으며, 환경과 상호 작용하는 동안 상담원이 학습하거나 상담원에게 제공 할 수 있습니다 (예 : 다른 상담원). 일반적으로, 모델 기반 알고리즘에서 에이전트는 전환 기능 (및 보상 기능)의 추정치가 있기 때문에 (학습 단계 중 또는 이후) 환경의 역학을 잠재적으로 예측할 수 있습니다. 그러나 상담원이 최적의 정책을 추정하기 위해 사용하는 전환 및 보상 기능은 "참"기능의 근사치 일 수 있습니다. 따라서 이러한 근사치 때문에 최적의 정책을 찾지 못할 수도 있습니다.
모델없는 알고리즘은 환경의 동적 (전이 및 보상 기능)을 사용하지 않고 또는 예측 최적 정책을 추정하는 알고리즘이다. 실제로, 모델이없는 알고리즘은 전환 기능이나 보상 기능을 사용하지 않고 경험에서 직접 "가치 함수"또는 "정책"(즉, 에이전트와 환경 간의 상호 작용)을 추정합니다. 값 함수는 모든 상태에 대해 상태 (또는 상태에서 취한 조치)를 평가하는 함수로 생각할 수 있습니다. 이 값 함수에서 정책을 파생시킬 수 있습니다.
실제로 모델 기반 또는 모델이없는 알고리즘을 구별하는 한 가지 방법은 알고리즘을보고 전환 또는 보상 기능을 사용하는지 확인하는 것입니다.
예를 들어 Q- 러닝 알고리즘 의 주요 업데이트 규칙을 살펴 보겠습니다 .
보시다시피이 업데이트 규칙은 MDP에 의해 정의 된 확률을 사용하지 않습니다. 노트 :다음 단계 (행동을 취한 후)에서 얻은 보상 일 뿐이지 만 반드시 사전에 알려지지는 않았습니다. 따라서 Q- 러닝은 모델이없는 알고리즘입니다.
이제 정책 개선 알고리즘 의 주요 업데이트 규칙을 살펴 보겠습니다 .
우리는 그것이 사용하는 것을 즉시 볼 수 있습니다 , MDP 모델에 의해 정의 된 확률. 따라서 정책 개선 알고리즘을 사용하는 정책 반복 (동적 프로그래밍 알고리즘)은 모델 기반 알고리즘입니다.
Model-Free RL에서 에이전트는 환경 모델에 액세스 할 수 없습니다. 환경 적으로 나는 상태 전이와 보상을 예측하는 기능을 의미합니다.
글을 쓰는 시점에서, 모델이없는 방법이 더 많이 사용되며 광범위하게 연구되었습니다.
모델 기반 RL에서 에이전트는 환경 모델에 액세스 할 수 있습니다.
주요 이점은 상담원이 미리 생각함으로써 미리 계획 할 수 있다는 것입니다. 상담원은 미리 계획된 결과를 학습 된 정책으로 정리합니다. Model-Based RL의 유명한 예는 AlphaZero 입니다.
주요 단점은 환경에 대한 진실 된 표현이 일반적으로 불가능하다는 것입니다.
다음은 RL 알고리즘에 대한 포괄적 인 분류법으로 RL 환경을 더 잘 시각화하는 데 도움이 될 수 있습니다.
OpenAI – Kinds of RL Algorithms 에 따르면 , 환경 모델, 즉 상태 전이 및 보상을 예측하는 기능을 사용하는 알고리즘을 모델 기반 방법이라고하며 모델이없는 모델 이라고 합니다 . 이 모델은 상담원에게 제공되거나 상담원이 학습 할 수 있습니다.
모델을 사용하면 상담원은 미리 생각하고 가능한 다양한 선택에 어떤 일이 발생하는지 확인하고 옵션 중에서 명시 적으로 결정함으로써 계획을 세울 수 있습니다. 보다 장기적인 사고가 필요한 문제에 직면했을 때 유용 할 수 있습니다. 계획을 수행하는 한 가지 방법은 예를 들어, 트리 검색의 일종을 사용하는 것입니다 몬테 카를로 트리 검색 (MCTS), 또는-하는 나는 또한 used-이 될 수 의심 변형 빠르게 탐색 임의 트리 (RRT)의. 예를 들어 상상하고 계획하는 요원을 참조하십시오 .
그러면 상담원은 미리 계획된 결과를 학습 된 정책으로 추출 할 수 있습니다.이를 전문가 반복이라고합니다.
모델을 사용하여 모델을 사용하여 상태가 업데이트되는 시뮬레이션 또는 "상상 된"환경을 생성하고 에이전트가 해당 환경 내에서 (예 : 월드 모델) 학습 할 수 있습니다 .
많은 실제 시나리오에서 에이전트는 환경의 실제 모델을 사용할 수 없습니다. 이 경우 상담원이 모델을 사용하려는 경우 모델을 배워야하는데, 몇 가지 이유로 어려움을 겪을 수 있습니다.
그러나 에이전트가 이미 알려진 모델을 사용하는 경우가 있으며 따라서 모델이 게임 규칙의 형태로 제공되는 AlphaZero 와 같이 모델을 배울 필요가 없습니다 .
몇 가지 좋은 대답이 있지만 차이점에 대한 심리적 견해 를 더하기 위해 강화 학습 : 소개 ( 303 페이지) 에서이 단락을 추가하고 싶습니다 .
모델이없는 모델과 모델 기반의 강화 학습 알고리즘의 구별은 심리학자가 학습 된 행동 패턴의 습관적 목표와 목표 지향적 제어 사이의 구별에 해당합니다. 습관은 적절한 자극에 의해 유발 된 행동 패턴이며 다소 자동으로 수행됩니다. 심리학자들이 문구를 어떻게 사용하는지에 따라 목표 지향적 행동은 목표의 가치와 행동과 결과 사이의 관계에 대한 지식에 의해 통제된다는 의미에서 목적이 있습니다. 습관은 종종 선행 자극에 의해 제어되는 것으로 알려져 있지만, 목표 지향적 행동은 그 결과에 의해 제어되는 것으로 알려져 있습니다 (Dickinson, 1980, 1985). 목표 지향 제어는 환경이 동물의 행동에 반응하는 방식을 바꿀 때 동물의 행동을 빠르게 바꿀 수 있다는 장점이 있습니다. 습관적인 행동은 익숙한 환경의 입력에 빠르게 반응하지만 환경의 변화에 빠르게 적응할 수는 없습니다.
그것은 거기에서 계속 가고 있으며 나중에 좋은 예가 있습니다.
다른 답변에서 항상 설명하지 않은 요점은 모델이없는 접근법에서는 여전히 행동과 관련된 보상이 무엇인지 알려주는 환경이 필요하다는 것입니다. 가장 큰 차이점은 모델에 대한 정보를 저장할 필요가 없다는 것입니다. 선택한 조치를 환경에 제공하고 예상 정책을 업데이트하며 잊어 버립니다. 반면, 모델 기반 접근 방식에서는 동적 프로그래밍에서와 같이 상태 전이 이력을 알아야하거나 현재 상태에서 가능한 모든 다음 상태 및 관련 보상을 계산할 수 있어야합니다.