Q- 러닝과 정책 그라디언트 방법의 관계는 무엇입니까?


20

내가 이해하는 한, Q- 러닝 및 정책 그라디언트 (PG)는 RL 문제를 해결하는 데 사용되는 두 가지 주요 접근법입니다. Q- 러닝은 특정 주에서 취해진 특정 행동의 보상을 예측하는 것을 목표로하지만 정책 그라디언트는 행동 자체를 직접 예측합니다.

그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- 학습)은 행동을 직접 취할 확률을 예측하는 것과 같습니다 (PG). 손실이 역 전파되는 방식의 차이가 있습니까?

답변:


19

그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- 학습)은 행동을 직접 취할 확률을 예측하는 것과 같습니다 (PG).

두 방법 모두 이론적으로 Markov 의사 결정 프로세스 구성 에 의해 구동되며 결과적으로 유사한 표기법과 개념을 사용합니다. 또한, 간단한 해결 가능한 환경에서는 두 방법 모두 동일하거나 최소한 동등한 정책을 가져야합니다.

그러나 실제로 내부적으로 다릅니다. 접근 방식의 가장 근본적인 차이점은 학습하는 동안 그리고 결과 (학습 된 정책)로서 행동 선택에 접근하는 방식에 있습니다. Q- 러닝에서 목표는 최대 값을 찾아 개별 동작 집합에서 단일 결정적 동작을 학습하는 것입니다. 정책 그라디언트 및 기타 직접 정책 검색을 통해 목표는 상태에서 행동으로의 맵을 배우는 것인데, 이는 확률 적이며 연속적인 작업 공간에서 작동합니다.

결과적으로 정책 그라데이션 방법은 가치 기반 방법으로 해결할 수없는 문제를 해결할 수 있습니다.

  • 크고 연속적인 작업 공간. 그러나, 가치 기반 방법의 경우, 이것은 여전히 ​​이산화에 의해 근사 될 수 있으며, 이는 정책 구배에서의 맵핑 기능이 실제로는 일종의 근사값이어야하기 때문에 이는 나쁜 선택이 아닙니다.

  • 확률 적 정책. 값 기반 방법은 가위 / 용지 / 돌과 같은 특정 확률을 요구하는 최적의 정책이 확률론적인 환경을 해결할 수 없습니다. Q- 러닝에는 행동의 확률을 제어하는 ​​훈련 가능한 매개 변수가 없기 때문에 TD 학습의 문제 공식은 결정 론적 에이전트가 최적 일 수 있다고 가정합니다.

그러나 Q- 러닝과 같은 가치 기반 방법에는 다음과 같은 장점도 있습니다.

  • 간단. Q 함수를 단순 이산 테이블로 구현할 수 있으며 이는 수렴을 보장합니다. 당신이 매핑 기능을 필요로하기 때문에 정책 그라데이션의 더 표 버전은 없습니다 또한 존중과 부드러운 그라데이션이 있어야하는 .(에이에스,θ)θ

  • 속도. 부트 스트랩을 사용하는 TD 학습 방법은 진행 상황을 평가하기 위해 환경에서 순수하게 샘플링해야하는 방법보다 정책을 배우는 것이 훨씬 빠릅니다.

하나 또는 다른 방법을 사용해야하는 다른 이유가 있습니다.

  • 에이전트와 관련된 다른 계획 프로세스를 돕기 위해 프로세스가 실행되는 동안 예상 수익을 알고 싶을 수 있습니다.

  • 문제의 상태 표현은 가치 기능이나 정책 기능에보다 쉽게 ​​적합합니다. 가치 함수는 상태와 매우 간단한 관계를 가지고 있고 정책 함수는 매우 복잡하고 배우기가 어렵거나 그 반대 일 수 있습니다.

최첨단 RL 솔버는 실제로 Actor-Critic과 같은 두 가지 접근법을 함께 사용합니다. 이것은 가치의 강점과 정책 그라디언트 방법을 결합합니다.


배우 비평가가 두 방법의 장점을 결합한다고 말할 때 무엇을 의미합니까? 내 이해에 따르면, 배우는 상태에 따라 취할 수있는 최선의 조치를 평가하고 비평가는 해당 상태의 가치를 평가 한 다음 배우에게 보상을 제공합니다. 그것들을 단일 "정책"단위로 취급하는 것은 여전히 ​​정책 그라디언트처럼 보입니다. 이것이 실제로 Q- 러닝과 같은 이유는 무엇입니까?
Gulzar

1
@Guizar : 비평가는 가치 기반 방법 (예 : Q- 러닝)을 사용하여 학습합니다. 따라서 전반적으로 행위자 비평가는 가치 방법과 정책 그라디언트 방법의 조합이며 조합의 이점이 있습니다. "바닐라"PG에 비해 눈에 띄는 개선점 중 하나는 각 에피소드의 끝이 아니라 각 단계에서 그라디언트를 평가할 수 있다는 것입니다. 이 주제에 대한 자세한 답변을 찾고 있다면 사이트에서 질문을해야합니다.
닐 슬레이터

@Guizar : 우위 행위자 비평가 (행동 값을 기준으로 기준선을 조정)와 일반적으로 더 단순한 상태 값인 비평가 사이에서 혼란스러워 짐에 따라 실제로 (예 : Q- 학습)을 긁습니다. 그러나 나머지 설명은 여전히 ​​동일하며 비평가는 일반적으로 가치 기반 TD 방법을 사용하여 업데이트되며 그 중 Q 학습도 예입니다.
닐 슬레이터
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.