«trpo» 태그된 질문

1
여러 연속 작업의 경우 정책 그라디언트를 어떻게 적용 할 수 있습니까?
TRPO (Trusted Region Policy Optimization) 및 PPO (Proximal Policy Optimization)는 최첨단 정책 그라디언트 알고리즘입니다. 단일 연속 동작을 사용하는 경우 일반적으로 손실 함수에 대해 확률 분포 (예 : 가우시안)를 사용합니다. 대략적인 버전은 다음과 같습니다. L ( θ ) = 로그( P(ㅏ1) ) ,엘(θ)=로그⁡(피(ㅏ1))ㅏ,L(\theta) = \log(P(a_1)) A, 어디 ㅏㅏA 보상의 장점입니다 피(ㅏ1)피(ㅏ1)P(a_1) …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.