여러 연속 작업의 경우 정책 그라디언트를 어떻게 적용 할 수 있습니까?


11

TRPO (Trusted Region Policy Optimization) 및 PPO (Proximal Policy Optimization)는 최첨단 정책 그라디언트 알고리즘입니다.

단일 연속 동작을 사용하는 경우 일반적으로 손실 함수에 대해 확률 분포 (예 : 가우시안)를 사용합니다. 대략적인 버전은 다음과 같습니다.

(θ)=로그((1)),

어디 보상의 장점입니다 (1) 특징이다 μσ2그것은 진자 환경과 같은 신경망에서 나옵니다 : https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py .

문제는 정책 그라디언트 (Q 함수에서 그라디언트를 전송하여 다른 접근 방식을 사용하는 행위자 비판적 방법이 아님)를 사용하여 2 + 연속 작업에 대한 논문을 찾을 수 없다는 것입니다.

LunarLander 환경 에서 2 개의 연속 작업에 TRPO 를 사용하여이 작업을 수행하는 방법을 알고 있습니까?

정책 그라디언트 손실 기능에 대한 다음 접근 방식이 올바른가요?

(θ)=(로그()+로그(2))

답변:


6

앞에서 언급했듯이 Actor-Critic이 선택한 조치는 일반적으로 정규 분포에서 비롯되며 현재 상태를 기반으로 적절한 평균 및 표준 편차를 찾는 것이 에이전트의 역할입니다. 많은 경우에 한 번의 연속 조치 만 필요하므로이 단일 분배로 충분합니다. 그러나 로봇 공학과 같은 영역이 AI와 더욱 통합되면서 2 개 이상의 연속 동작이 필요한 상황이 점점 더 심각 해지고 있습니다.

이 문제에 대한 두 가지 해결책이 있습니다. 첫 번째로 가장 흔한 것은 모든 연속 동작에 대해 자체 1 차원 평균 및 표준 편차를 학습하는 별도의 에이전트가 있다는 것입니다. 상태의 일부에는 전체 시스템이 수행하는 작업의 컨텍스트를 제공하기 위해 다른 에이전트의 조치가 포함됩니다. 우리는 일반적으로 실험실 에서이 작업을 수행하며 로봇 팔을 움직이기 위해 3 명의 행위자 비평가가 함께 작업하는 방법을 설명하는 논문이 있습니다.

두 번째 방법은 한 에이전트 가 정책 의 다변량 (보통 정상) 분포 를 찾도록 하는 것입니다. 이론적으로이 접근 방식은 공분산 행렬을 기반으로 분포를 "회전"하여보다 간결한 정책 분포를 가질 수 있지만 공분산 행렬의 모든 값도 학습해야합니다. 이를 통해 학습해야하는 값의 수가 증가합니다 연속 출력 2 (의미 및 stddev) +2 ( 수단과 ×공분산 행렬). 이러한 단점으로 인해이 접근 방식은 문헌에서 인기가 없었습니다.

이것은 더 일반적인 답변이지만 관련 문제에 대해 귀하와 다른 사람들을 도울 것입니다.


1
훌륭한 답변을위한 Jaden 감사합니다. 1. 다중 에이전트 아키텍처를 시도했지만 그다지 효율적이지 않습니다. 수렴하는 데 훨씬 오래 걸립니다. 2. 이제 다변량 분포도 나에게 명백해 보입니다. 감사합니다.
우르 탄을 피하다

1
응용 프로그램 및 아키텍처 (딥 네트 인 경우)에 따라 에이전트가 저수준 기능을 공유 한 다음 고유 한 가치 기능으로 분기되도록 할 수 있습니다. 또한 1 명의 비평가와 다수의 액터를 갖는 것도 아키텍처를 향상시키는 방법입니다.
Jaden Travnik

현재 배우 비평가가 아닌 TRPO (단순한 정책 그라디언트 방법)에 제안을 적용하고 싶습니다. 나는 비평가에서 배우로의 그라디언트 전송에 대해 확신이 없습니다. 많은 구현에서 수렴하더라도 작동하지 않는 것처럼 보입니다.
우르 탄을 피하다

1
이 멍청한 질문에 대해 유감스럽게 생각합니다. 액터가 정책 기능을 가지고 있고 정책 그라디언트 방법에 의해 훈련되는 액터 크리티컬 방법 (액터가 여러 개의 동시 연속 작업을 수행 할 수있는 위치)에서 어떻게 적용됩니까? @JadenTravnik 새 제목 아래의 답변에서 설명해 주시겠습니까?
Gokul NC
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.