«reinforcement-learning» 태그된 질문

지금까지 학습 한 내용의 학습과 사용이 동시에 발생하는 외부 긍정적 강화 또는 부정적인 피드백 신호 또는 둘 모두에 의해 제어되는 학습과 관련된 질문의 경우.

2
어떤 시점에서 기준선이 상태에 대해 조건부 인 이유는 무엇입니까?
로봇 공학에서 보강 학습 기술은 로봇의 제어 패턴을 찾는 데 사용됩니다. 불행히도 대부분의 정책 기울기 방법은 통계적으로 편향되어있어 로봇을 안전하지 않은 상황에 놓을 수 있습니다. Jan Peters and Stefan Schaal의 2 페이지를 참조하십시오 : 정책 기울기를 이용한 운동 기술 강화 학습, 2008 모터 기본 학습을 사용하면 정책 기울기 매개 변수 …

1
체스와 같은 게임에 강화 학습을 적용하는 것에 관한 몇 가지 의심
체스 같은 보드 게임을 발명했습니다. 자율적으로 재생할 수 있도록 엔진을 만들었습니다. 엔진은 기본적으로 의사 결정 트리입니다. 다음과 같이 구성됩니다. 각 노드에서 가능한 모든 법적 움직임을 찾는 검색 기능 보드 위치에 숫자 값을 할당하는 평가 기능 사전 정리 부정 알고리즘 이 엔진의 주요 문제점은 평가 기능의 최적화가 실제로 까다 롭다는 것입니다. …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.