2
어떤 시점에서 기준선이 상태에 대해 조건부 인 이유는 무엇입니까?
로봇 공학에서 보강 학습 기술은 로봇의 제어 패턴을 찾는 데 사용됩니다. 불행히도 대부분의 정책 기울기 방법은 통계적으로 편향되어있어 로봇을 안전하지 않은 상황에 놓을 수 있습니다. Jan Peters and Stefan Schaal의 2 페이지를 참조하십시오 : 정책 기울기를 이용한 운동 기술 강화 학습, 2008 모터 기본 학습을 사용하면 정책 기울기 매개 변수 …