인공 지능 reinforcement-learning

어떤 시점에서 기준선이 상태에 대해 조건부 인 이유는 무엇입니까?

로봇 공학에서 보강 학습 기술은 로봇의 제어 패턴을 찾는 데 사용됩니다. 불행히도 대부분의 정책 기울기 방법은 통계적으로 편향되어있어 로봇을 안전하지 않은 상황에 놓을 수 있습니다. Jan Peters and Stefan Schaal의 2 페이지를 참조하십시오 : 정책 기울기를 이용한 운동 기술 강화 학습, 2008 모터 기본 학습을 사용하면 정책 기울기 매개 변수 …

9 reinforcement-learning

체스와 같은 게임에 강화 학습을 적용하는 것에 관한 몇 가지 의심

체스 같은 보드 게임을 발명했습니다. 자율적으로 재생할 수 있도록 엔진을 만들었습니다. 엔진은 기본적으로 의사 결정 트리입니다. 다음과 같이 구성됩니다. 각 노드에서 가능한 모든 법적 움직임을 찾는 검색 기능 보드 위치에 숫자 값을 할당하는 평가 기능 사전 정리 부정 알고리즘 이 엔진의 주요 문제점은 평가 기능의 최적화가 실제로 까다 롭다는 것입니다. …

9 reinforcement-learning game-ai game-theory combinatorial-games negamax

«reinforcement-learning» 태그된 질문