3
환경도 확률 적이라면 최적의 정책은 항상 확률 적입니까?
환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가? 직관적으로 환경이 결정론적인 경우 (즉, 에이전트가 상태 인 경우)sss 그리고 행동을 취한다 aaa다음 상태 s′s′s' 시간 단계에 관계없이 항상 동일하면 최적의 정책도 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).