«deterministic-policy» 태그된 질문

3
환경도 확률 적이라면 최적의 정책은 항상 확률 적입니까?
환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가? 직관적으로 환경이 결정론적인 경우 (즉, 에이전트가 상태 인 경우)sss 그리고 행동을 취한다 aaa다음 상태 s′s′s' 시간 단계에 관계없이 항상 동일하면 최적의 정책도 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.