로봇 공학에서 보강 학습 기술은 로봇의 제어 패턴을 찾는 데 사용됩니다. 불행히도 대부분의 정책 기울기 방법은 통계적으로 편향되어있어 로봇을 안전하지 않은 상황에 놓을 수 있습니다. Jan Peters and Stefan Schaal의 2 페이지를 참조하십시오 : 정책 기울기를 이용한 운동 기술 강화 학습, 2008
모터 기본 학습을 사용하면 정책 기울기 매개 변수 최적화가 학습 단계를 목표로 지정하므로 문제를 극복 할 수 있습니다.
인용 :“그라디언트 추정치가 편향적이지 않고 학습률이 sum (a) = 0을 충족하는 경우 학습 프로세스는 최소한 로컬 최소값으로 수렴하도록 보장됩니다. [...] 따라서 생성 된 데이터에서만 정책 경사도를 추정해야합니다. 작업 실행 중 ”(같은 용지의 4 페이지)
Berkeley RL 클래스 문제 1 의 과제에서, 차감 된 기준선이 타임 스텝 t의 상태 함수 인 경우 정책 그라디언트가 여전히 편향되어 있지 않음을 표시하도록 요청합니다.
나는 그러한 증거의 첫 단계가 무엇인지 고민하고 있습니다. 누군가 올바른 방향으로 나를 가리킬 수 있습니까? 나의 초기 생각은 어떻게 든 t (st)에 대한 기대를 T에 대한 조건부로 만들기 위해 총 기대 법칙을 사용하는 것이었지만 확실하지 않습니다. 미리 감사드립니다 :)