TRPO (Trusted Region Policy Optimization) 및 PPO (Proximal Policy Optimization)는 최첨단 정책 그라디언트 알고리즘입니다.
단일 연속 동작을 사용하는 경우 일반적으로 손실 함수에 대해 확률 분포 (예 : 가우시안)를 사용합니다. 대략적인 버전은 다음과 같습니다.
어디 보상의 장점입니다 특징이다 과 그것은 진자 환경과 같은 신경망에서 나옵니다 : https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py .
문제는 정책 그라디언트 (Q 함수에서 그라디언트를 전송하여 다른 접근 방식을 사용하는 행위자 비판적 방법이 아님)를 사용하여 2 + 연속 작업에 대한 논문을 찾을 수 없다는 것입니다.
LunarLander 환경 에서 2 개의 연속 작업에 TRPO 를 사용하여이 작업을 수행하는 방법을 알고 있습니까?
정책 그라디언트 손실 기능에 대한 다음 접근 방식이 올바른가요?