답변:
그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- 학습)은 행동을 직접 취할 확률을 예측하는 것과 같습니다 (PG).
두 방법 모두 이론적으로 Markov 의사 결정 프로세스 구성 에 의해 구동되며 결과적으로 유사한 표기법과 개념을 사용합니다. 또한, 간단한 해결 가능한 환경에서는 두 방법 모두 동일하거나 최소한 동등한 정책을 가져야합니다.
그러나 실제로 내부적으로 다릅니다. 접근 방식의 가장 근본적인 차이점은 학습하는 동안 그리고 결과 (학습 된 정책)로서 행동 선택에 접근하는 방식에 있습니다. Q- 러닝에서 목표는 최대 값을 찾아 개별 동작 집합에서 단일 결정적 동작을 학습하는 것입니다. 정책 그라디언트 및 기타 직접 정책 검색을 통해 목표는 상태에서 행동으로의 맵을 배우는 것인데, 이는 확률 적이며 연속적인 작업 공간에서 작동합니다.
결과적으로 정책 그라데이션 방법은 가치 기반 방법으로 해결할 수없는 문제를 해결할 수 있습니다.
크고 연속적인 작업 공간. 그러나, 가치 기반 방법의 경우, 이것은 여전히 이산화에 의해 근사 될 수 있으며, 이는 정책 구배에서의 맵핑 기능이 실제로는 일종의 근사값이어야하기 때문에 이는 나쁜 선택이 아닙니다.
확률 적 정책. 값 기반 방법은 가위 / 용지 / 돌과 같은 특정 확률을 요구하는 최적의 정책이 확률론적인 환경을 해결할 수 없습니다. Q- 러닝에는 행동의 확률을 제어하는 훈련 가능한 매개 변수가 없기 때문에 TD 학습의 문제 공식은 결정 론적 에이전트가 최적 일 수 있다고 가정합니다.
그러나 Q- 러닝과 같은 가치 기반 방법에는 다음과 같은 장점도 있습니다.
간단. Q 함수를 단순 이산 테이블로 구현할 수 있으며 이는 수렴을 보장합니다. 당신이 매핑 기능을 필요로하기 때문에 정책 그라데이션의 더 표 버전은 없습니다 또한 존중과 부드러운 그라데이션이 있어야하는 .
속도. 부트 스트랩을 사용하는 TD 학습 방법은 진행 상황을 평가하기 위해 환경에서 순수하게 샘플링해야하는 방법보다 정책을 배우는 것이 훨씬 빠릅니다.
하나 또는 다른 방법을 사용해야하는 다른 이유가 있습니다.
에이전트와 관련된 다른 계획 프로세스를 돕기 위해 프로세스가 실행되는 동안 예상 수익을 알고 싶을 수 있습니다.
문제의 상태 표현은 가치 기능이나 정책 기능에보다 쉽게 적합합니다. 가치 함수는 상태와 매우 간단한 관계를 가지고 있고 정책 함수는 매우 복잡하고 배우기가 어렵거나 그 반대 일 수 있습니다.
최첨단 RL 솔버는 실제로 Actor-Critic과 같은 두 가지 접근법을 함께 사용합니다. 이것은 가치의 강점과 정책 그라디언트 방법을 결합합니다.