환경도 확률 적이라면 최적의 정책은 항상 확률 적입니까?


10

환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가?

직관적으로 환경이 결정론적인 경우 (즉, 에이전트가 상태 인 경우)s 그리고 행동을 취한다 a다음 상태 s 시간 단계에 관계없이 항상 동일하면 최적의 정책도 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).


관련 질문이 있습니다 : mathoverflow.net/q/44677 .
nbro

답변:


6

환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가?

아니.

최적의 정책은 일반적으로 다음과 같은 경우를 제외하고 결정적입니다.

  • 중요한 상태 정보가 없습니다 (POMDP). 예를 들어, 상담원이 정확한 위치를 알 수 없거나 이전 상태를 기억할 수없는 맵에서 제공된 상태로는 위치를 명확하게하기에 충분하지 않습니다. 목표가 특정 최종 위치에 도달하는 것이라면, 최적의 정책은 막히지 않도록 임의의 움직임을 포함 할 수 있습니다. 이 경우 환경은 (전체 상태를 볼 수있는 사람의 관점에서) 결정론적일 수 있지만 여전히이를 해결하기 위해 확률 적 정책을 요구합니다.

  • 환경이나 다른 에이전트가 결정적 정책을 처벌 할 수있는 일종의 미니 맥스 게임 이론 시나리오가 있습니다. 가위 / 종이 / 돌 또는 죄수의 딜레마를 생각하십시오.

직관적으로, 환경이 결정 론적이라면 (즉, 상담원이 상태 𝑠에 있고 조치 𝑎를 수행하는 경우, 다음 상태 is ′는 시간 단계와 상관없이 항상 동일합니다), 최적 정책은 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).

그것은 합리적 인 것처럼 보이지만 가치 함수를 기반으로 한 모든 방법으로 직관을 더 발전시킬 수 있습니다.

당신이 최적의 값 기능을 발견 한 경우가 다음과 관련하여 탐욕 행동 이다 최적의 정책.

위의 진술은 Bellman 최적 성 방정식을 자연스럽게 다시 표현한 것입니다.

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

즉, 다음 단계의 보상 및 할인 된 가치를 극대화하는 조치를 항상 선택할 때 최적의 값을 얻습니다. 그만큼maxa 작업은 결정 론적입니다 (필요한 경우 순서가 지정된 작업 목록을 사용하여 최대 값의 결정 성을 결정적으로 깰 수 있음).

따라서 MDP로 모델링하고 가치 기반 방법 (예 : 가치 반복, Q- 러닝)으로 해결할 수있는 환경은 결정적인 최적의 정책을 갖습니다.

그러한 환경에서는 최적의 솔루션이 전혀 확률 적이 지 않을 수 있습니다 (즉, 결정 론적 최적 정책에 임의성을 추가하면 정책이 엄격하게 악화됩니다). 그러나 하나 이상의 상태에서 하나 이상의 작업에 대한 최대 가치에 대한 유대가있는 경우 여러 개의 동등한 최적의 결정적 정책이 있습니다. 이를 조합하여 확률 론적 정책을 구성 할 수 있으며 최적의 정책도됩니다.


1
"확률 론적 정책이 최적이 아닌 환경에서 가능하다"는 결정 론적 정책을 의미 하는가?
nbro

2
@nbro : 아니요, 저는 최적의 확률 론적 정책이 없다는 것을 의미합니다. 이것은 일반적으로 그렇습니다. 간단한 미로 솔버의 예를 생각해보십시오. 최적의 결정 론적 솔루션이 처음부터 끝까지 단일 경로 인 경우 임의성을 추가하면 정책이 엄격하게 악화됩니다. 환경이 랜덤 노이즈 (예를 들어, 이동 때로는 실패) 추가하는 경우이 변경되지 않습니다
닐 슬레이터

2
지금은 이해. 당신은 항상 결정 론적 정책이 존재한다고 말하는데, 결정 론적 정책에서 결정적이고 파생 된 정책은 최적의 결정 론적 정책보다 나쁠 것입니다.
nbro

1
@nbro : 그렇습니다.
Neil Slater

5

나는 아니오라고 말할 것입니다.

예를 들어, 다중 무기 산적 문제를 생각해보십시오 . 그래서, 당신은n 모두 당신에게 보상을 줄 확률이있는 무기 (예 : 1 점), pi, i 1과 1 사이 n. 이것은 단순한 확률 론적 환경입니다. 이것은 하나의 상태 환경이지만 여전히 환경입니다.

그러나 분명히 최적의 정책은 가장 높은 팔을 선택하는 것입니다 pi. 따라서 이것은 확률 적 정책이 아닙니다.

분명히 다른 에이전트 (게임 이론 설정)와 대결하는 환경에 있다면 최적의 정책은 확실히 확률적일 것입니다 (예를 들어 포커 게임을 생각하십시오).


항상 가장 높은 팔을 선택하는 것이 명백한 이유는 무엇입니까? pi? pi 당신이 항상 팔을 선택한다면 (최소한, 유한 한 시간에) 가장 많은 보상을받을 것이라고 확신 할 수는 없습니다 i.
nbro

2
@nbro : 기대가 확실합니다. 이것이 최적의 정책이 극대화하는 것입니다. 정책은 불가능하다고 가정되는 난수 생성기를 추측하지 않습니다 (시스템의 일부 내부 상태로 인해 가능하면 해당 내부 상태를 모델에 추가하거나 POMDP로 처리해야 함)
Neil Slater

@NeilSlater Ok. 그러나 시간이 유한하면 결론이 바뀔까요? 플레이 할 시간이 제한되어 있다면, 플레이 가능한 시간도 고려해야한다고 생각합니다.
nbro

2
@nbro : 결정이 바뀔 수 있지만 실제로는 최적의 정책이 아닙니다. 산적 무기에 대한 최적의 정책은 여전히 ​​최고의 무기를 사용하는 것에 대한 결정 론적이지만 알 수는 없습니다. 이것은 탐사 대 착취에 관한 것입니다. 당신은 할 수 문구가 아마도 "산적 문제를 탐험을위한 최적의 정책"을 가지고있다. 예를 들어 Sutton & Barto에서 사용 된 용어는 아니지만 일부 분류 자들은 그런 말을 할 것입니다. . .
Neil Slater

1
환경에는 동일한 결정을 반복적으로 내릴 수있는 상태가 하나만 있습니다. 어떤 팔을 선택해야합니까?
Adrien Forbu

0

나는 당신이 다양한 알려지지 않은 봉우리와 여물통이있는 배우로 자신을 찾을 확률 조경을 생각하고 있습니다. 좋은 결정 론적 접근 방식은 항상 가장 가까운 지역 최적으로 이어질 수 있지만 반드시 전역 최적은 아닙니다. 글로벌 최적을 찾기 위해 MCMC 알고리즘과 같은 것은 로컬 최적에서 벗어나 글로벌 최적을 찾기 위해 일시적으로 더 나쁜 결과를 확률 적으로 받아 들일 수 있습니다. 내 직감은 확률 론적 환경에서도 마찬가지입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.