Markov 의사 결정 프로세스의 실제 예


20

나는 많은 튜토리얼 비디오를보고 있었고 그들은 동일하게 보입니다. 예를 들면 다음과 같습니다. https://www.youtube.com/watch?v=ip4iSMRW5X4

그들은 상태, 행동 및 확률을 설명합니다. 그 사람은 그것을 잘 설명하지만 실제 생활에서 사용되는 것을 파악할 수는 없습니다. 아직 목록을 보지 못했습니다. 내가 보는 가장 일반적인 것은 체스입니다.

사물을 예측하는 데 사용할 수 있습니까? 그렇다면 어떤 유형의 것들입니까? 무한한 양의 데이터 중 패턴을 찾을 수 있습니까? 이 알고리즘이 나를 위해 무엇을 할 수 있습니까?

보너스 : 또한 MDP가 한 주에서 다른 주로가는 것이 중요하다고 생각합니다. 이것이 사실입니까?

답변:


28

마르코프 의사 결정 프로세스는 실제로 한 상태에서 다른 상태로가는 주로 사용되는과 관련이있다 계획의사 결정 .

이론

이론을 빠르게 반복하면 MDP는 다음과 같습니다.

MDP=에스,에이,,아르 자형,γ

에스에이아르 자형(에스'|에스,에이)아르 자형γ 미래의 보상의 중요성을 줄이기 위해 사용되는 할인 요인이다.

따라서 그것을 사용하려면 미리 정의해야합니다.

  1. 상태 : 예를 들어 로봇 공학의 그리드 맵 또는 문 열림문 닫힘을 참조 할 수 있습니다 .
  2. 동작 : 로봇의 경우 북쪽, 남쪽, 동쪽 등으로 이동하거나 문을 열고 닫는 등의 고정 된 동작 집합입니다.
  3. 전환 확률 : 조치가 주어진 상태에서 다른 상태로 갈 확률. 예를 들어, 조치가 열린 경우 문을 열 확률은 얼마입니까 ? 완벽한 세계에서 나중에 1.0이 될 수 있지만 로봇이라면 도어 손잡이를 올바르게 처리하지 못할 수 있습니다. 움직이는 로봇의 경우 또 다른 예는 북쪽 의 동작 으로 , 대부분의 경우 북쪽의 그리드 셀로 가져 오지만 일부 경우에는 너무 많이 이동하여 다음 셀에 도달 할 수 있습니다.
  4. 보상 : 계획을 안내하는 데 사용됩니다. 그리드 예제의 경우 특정 셀로 가고 싶을 때 더 가까워지면 보상이 높아집니다. 문 예의 경우 문을 열면 높은 보상을 줄 수 있습니다.

MDP가 정의되면 각 상태에 대한 예상 보상을 계산 하는 Value Iteration 또는 Policy Iteration 을 수행 하여 정책 을 학습 할 수 있습니다 . 정책은 다음 주 당주는 최고의 할 (민주당 모델을 제공) 조치를.

요약하면 MDP는 작업이 항상 100 % 효과적이지 않을 수있는 효율적인 일련의 작업을 계획하려는 경우에 유용합니다.

당신의 질문

사물을 예측하는 데 사용할 수 있습니까?

예를 들어 회귀 처럼 예측하지 않고 계획이라고 부릅니다 .

그렇다면 어떤 유형의 것들입니까?

예를 참조하십시오 .

무한한 양의 데이터 중에서 패턴을 찾을 수 있습니까?

|에스|

이 알고리즘이 나를 위해 무엇을 할 수 있습니까?

예를 참조하십시오 .

MDP 적용 사례

그리고 더 많은 모델이 있습니다. 더욱 흥미로운 모델은 부분적으로 관찰 가능한 Markovian 의사 결정 프로세스입니다 상태가 완전히 보이지 않는 이며, 대신 현재 상태에 대한 아이디어를 얻는 데 관찰이 사용되지만이 질문의 범위를 벗어납니다.

추가 정보

미래 상태의 조건부 확률 분포가 이전 상태가 아닌 현재 상태에만 의존하는 경우 (즉, 이전 상태 목록에없는 경우) 확률 적 프로세스는 Markovian (또는 Markov 속성이 있음)입니다.


2
이것은 아마도 Cross Validated에서 본 가장 명확한 대답 일 것입니다.
숨겨진 마르코프 모델

링크를 고칠 수 있습니까? 그들 중 일부는 부서 지거나 구식 인 것 같습니다.
ComputerScientist

그래서이 모든 프로세스 states, actions, transition probabilitiesrewards마르코프 되나하실 것입니다 정의 된?
수 하일 굽타
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.