1
여러 연속 작업의 경우 정책 그라디언트를 어떻게 적용 할 수 있습니까?
TRPO (Trusted Region Policy Optimization) 및 PPO (Proximal Policy Optimization)는 최첨단 정책 그라디언트 알고리즘입니다. 단일 연속 동작을 사용하는 경우 일반적으로 손실 함수에 대해 확률 분포 (예 : 가우시안)를 사용합니다. 대략적인 버전은 다음과 같습니다. L ( θ ) = 로그( P(ㅏ1) ) ,엘(θ)=로그(피(ㅏ1))ㅏ,L(\theta) = \log(P(a_1)) A, 어디 ㅏㅏA 보상의 장점입니다 피(ㅏ1)피(ㅏ1)P(a_1) …