마르코프 의사 결정 프로세스는 실제로 한 상태에서 다른 상태로가는 주로 사용되는과 관련이있다 계획 및 의사 결정 .
이론
이론을 빠르게 반복하면 MDP는 다음과 같습니다.
MDP = ⟨ S, A , T, R , γ⟩
에스에이티피r ( 초'| S,)아르 자형γ 미래의 보상의 중요성을 줄이기 위해 사용되는 할인 요인이다.
따라서 그것을 사용하려면 미리 정의해야합니다.
- 상태 : 예를 들어 로봇 공학의 그리드 맵 또는 문 열림 및 문 닫힘을 참조 할 수 있습니다 .
- 동작 : 로봇의 경우 북쪽, 남쪽, 동쪽 등으로 이동하거나 문을 열고 닫는 등의 고정 된 동작 집합입니다.
- 전환 확률 : 조치가 주어진 상태에서 다른 상태로 갈 확률. 예를 들어, 조치가 열린 경우 문을 열 확률은 얼마입니까 ? 완벽한 세계에서 나중에 1.0이 될 수 있지만 로봇이라면 도어 손잡이를 올바르게 처리하지 못할 수 있습니다. 움직이는 로봇의 경우 또 다른 예는 북쪽 의 동작 으로 , 대부분의 경우 북쪽의 그리드 셀로 가져 오지만 일부 경우에는 너무 많이 이동하여 다음 셀에 도달 할 수 있습니다.
- 보상 : 계획을 안내하는 데 사용됩니다. 그리드 예제의 경우 특정 셀로 가고 싶을 때 더 가까워지면 보상이 높아집니다. 문 예의 경우 문을 열면 높은 보상을 줄 수 있습니다.
MDP가 정의되면 각 상태에 대한 예상 보상을 계산 하는 Value Iteration 또는 Policy Iteration 을 수행 하여 정책 을 학습 할 수 있습니다 . 정책은 다음 주 당주는 최고의 할 (민주당 모델을 제공) 조치를.
요약하면 MDP는 작업이 항상 100 % 효과적이지 않을 수있는 효율적인 일련의 작업을 계획하려는 경우에 유용합니다.
당신의 질문
사물을 예측하는 데 사용할 수 있습니까?
예를 들어 회귀 처럼 예측하지 않고 계획이라고 부릅니다 .
그렇다면 어떤 유형의 것들입니까?
예를 참조하십시오 .
무한한 양의 데이터 중에서 패턴을 찾을 수 있습니까?
| 에스|
이 알고리즘이 나를 위해 무엇을 할 수 있습니까?
예를 참조하십시오 .
MDP 적용 사례
- White, DJ (1993) 는 많은 응용 프로그램 목록을 언급합니다.
- 수확 : 번식을 위해 얼마나 많은 구성원이 남아 있어야합니까.
- 농업 : 날씨와 토양 상태에 따라 얼마나 심을 것인가.
- 수자원 : 저수지에서 올바른 수위를 유지하십시오.
- 점검, 유지 보수 및 수리 : 연령, 상태 등에 따라 교체 / 검사시기
- 구매 및 생산 : 수요에 따라 생산량.
- 대기열 : 대기 시간을 줄입니다.
- ...
- 재무 : 주식에 투자 할 금액 결정.
- 로봇 공학 :
그리고 더 많은 모델이 있습니다. 더욱 흥미로운 모델은 부분적으로 관찰 가능한 Markovian 의사 결정 프로세스입니다 상태가 완전히 보이지 않는 이며, 대신 현재 상태에 대한 아이디어를 얻는 데 관찰이 사용되지만이 질문의 범위를 벗어납니다.
추가 정보
미래 상태의 조건부 확률 분포가 이전 상태가 아닌 현재 상태에만 의존하는 경우 (즉, 이전 상태 목록에없는 경우) 확률 적 프로세스는 Markovian (또는 Markov 속성이 있음)입니다.