게임 이론과 강화 학습의 관계는 무엇입니까?


12

나는에 관심이 있어요 (깊은) 강화 학습 (RL) . 이 분야에 뛰어 들기 전에 게임 이론 (GT) 과정을 수강해야 합니까?

GTRL 은 어떤 관련이 있습니까?


2
그들은 망치와 휘핑 크림만큼이나 밀접한 관련이 있습니다. 둘 다 사용할 수있는 문제를 찾을 수는 있지만 일반적이지 않습니다.
돈 레바

4
@DonReba Reinforcement Learning의 유명한 두 연구자에 따르면, udacity.com/course/… Game Theory는 최적의 정책이 무엇인지, RL은 에이전트가 최적의 정책을 배우는 방법을 알려줍니다 .
Kiuhnm

3
@DonReba, 아마도 그들에게 가르쳐지는 일반적인 내용의 관점에서. 그러나 두 필드의 목적은 그리 다르지 않습니다. 강화 학습은 종종 한 명의 플레이어에게 불완전한 정보 게임으로 간주 될 수 있습니다. 또는 다른 플레이어 (자연)가 발견하려는 규칙 세트를 따르는 두 플레이어 게임입니다.
추측

1
이것은 교육적이었습니다. :)
Don Reba

답변:


12

강화 학습 (RL)에서 기본 Markov 의사 결정 프로세스 (MDP)를 상상하는 것이 일반적입니다. RL의 목표는 종종 부분적으로 만 지정된 MDP에 대한 좋은 정책을 배우는 것입니다. MDP는 총, 평균 또는 할인 보상과 같은 다양한 목표를 가질 수 있습니다. 여기서 할인 보상은 RL에 대한 가장 일반적인 가정입니다. 2 인 (즉, 게임) 설정에 대한 MDP의 확장 된 연구가있다. 예를 들어

Filar, Jerzy 및 Koos Vrieze. 경쟁력있는 Markov 의사 결정 프로세스 . Springer Science & Business Media, 2012.

MDP가 공유하는 기본 이론과 Banach 고정 점 정리, 가치 반복, Bellman 최적 성, 정책 반복 / 전략 개선 등 2 인 (제로섬) 게임으로의 확장이 있습니다. MDP (및 RL)와 이러한 특정 유형의 게임 간의 밀접한 관계 :

  • 전제 조건으로 GT없이 RL (및 MDP)에 대해 직접 학습 할 수 있습니다.
  • 어쨌든, 당신은 대부분의 GT 과정에서 이러한 것들에 대해 배우지 않을 것입니다 (일반적으로 전략적 형태, 광범위한 형태 및 반복되는 게임에 중점을 두지 만 MDP를 일반화하는 국가 기반 무한 게임은 아닙니다).


0

RL : 단일 요원이 Markov 의사 결정 문제 (MDPS)를 해결하도록 훈련되었습니다. GT : 두 명의 요원이 게임을 해결하도록 훈련되었습니다. MARL (Multi-agent Reinforcement Learning)을 사용하여 확률 적 게임을 해결할 수 있습니다.

딥 러닝에서 RL의 단일 에이전트 응용 프로그램에 관심이 있다면 GT 과정을 밟을 필요가 없습니다. 둘 이상의 에이전트의 경우 게임 이론 기술을 알아야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.