답변:
환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가?
아니.
최적의 정책은 일반적으로 다음과 같은 경우를 제외하고 결정적입니다.
중요한 상태 정보가 없습니다 (POMDP). 예를 들어, 상담원이 정확한 위치를 알 수 없거나 이전 상태를 기억할 수없는 맵에서 제공된 상태로는 위치를 명확하게하기에 충분하지 않습니다. 목표가 특정 최종 위치에 도달하는 것이라면, 최적의 정책은 막히지 않도록 임의의 움직임을 포함 할 수 있습니다. 이 경우 환경은 (전체 상태를 볼 수있는 사람의 관점에서) 결정론적일 수 있지만 여전히이를 해결하기 위해 확률 적 정책을 요구합니다.
환경이나 다른 에이전트가 결정적 정책을 처벌 할 수있는 일종의 미니 맥스 게임 이론 시나리오가 있습니다. 가위 / 종이 / 돌 또는 죄수의 딜레마를 생각하십시오.
직관적으로, 환경이 결정 론적이라면 (즉, 상담원이 상태 𝑠에 있고 조치 𝑎를 수행하는 경우, 다음 상태 is ′는 시간 단계와 상관없이 항상 동일합니다), 최적 정책은 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).
그것은 합리적 인 것처럼 보이지만 가치 함수를 기반으로 한 모든 방법으로 직관을 더 발전시킬 수 있습니다.
당신이 최적의 값 기능을 발견 한 경우가 다음과 관련하여 탐욕 행동 이다 최적의 정책.
위의 진술은 Bellman 최적 성 방정식을 자연스럽게 다시 표현한 것입니다.
즉, 다음 단계의 보상 및 할인 된 가치를 극대화하는 조치를 항상 선택할 때 최적의 값을 얻습니다. 그만큼 작업은 결정 론적입니다 (필요한 경우 순서가 지정된 작업 목록을 사용하여 최대 값의 결정 성을 결정적으로 깰 수 있음).
따라서 MDP로 모델링하고 가치 기반 방법 (예 : 가치 반복, Q- 러닝)으로 해결할 수있는 환경은 결정적인 최적의 정책을 갖습니다.
그러한 환경에서는 최적의 솔루션이 전혀 확률 적이 지 않을 수 있습니다 (즉, 결정 론적 최적 정책에 임의성을 추가하면 정책이 엄격하게 악화됩니다). 그러나 하나 이상의 상태에서 하나 이상의 작업에 대한 최대 가치에 대한 유대가있는 경우 여러 개의 동등한 최적의 결정적 정책이 있습니다. 이를 조합하여 확률 론적 정책을 구성 할 수 있으며 최적의 정책도됩니다.
나는 아니오라고 말할 것입니다.
예를 들어, 다중 무기 산적 문제를 생각해보십시오 . 그래서, 당신은 모두 당신에게 보상을 줄 확률이있는 무기 (예 : 1 점), , 1과 1 사이 . 이것은 단순한 확률 론적 환경입니다. 이것은 하나의 상태 환경이지만 여전히 환경입니다.
그러나 분명히 최적의 정책은 가장 높은 팔을 선택하는 것입니다 . 따라서 이것은 확률 적 정책이 아닙니다.
분명히 다른 에이전트 (게임 이론 설정)와 대결하는 환경에 있다면 최적의 정책은 확실히 확률적일 것입니다 (예를 들어 포커 게임을 생각하십시오).