계층 적 강화 작업의 구조 학습

나는 계층 적 강화 학습 문제를 연구 해 왔고, 많은 논문들이 정책 학습을위한 알고리즘을 제안하고 있지만, 모두 도메인에서 활동의 계층 구조를 설명하는 그래프 구조를 미리 알고 있다고 가정하는 것 같습니다. 예를 들어 Dietterich의 계층 적 강화 학습 을 위한 MAXQ 방법 은 간단한 택시 도메인의 작업 및 하위 작업 그래프를 설명하지만이 그래프가 어떻게 검색되는지는 설명하지 않습니다. 정책뿐만 아니라이 그래프의 계층 구조를 어떻게 배우겠습니까?

다시 말해, 논문의 예를 사용하여, 세계에 대한 사전 지식이 거의없고, 기본 이동 좌 / 이동 오른쪽 등의 조치만으로도 택시가 객관적으로 운전한다면, 어떻게 더 높은 수준의 행동을 배우게 될까요? 픽업 승무원? 논문을 올바르게 이해하고 있고 이해하지 못하는 경우 이러한 고급 조치에 대한 정책을 업데이트하는 방법을 제안하지만 처음부터 구성하는 방식은 제안하지 않습니다.

machine-learning

— 세린
소스

이 논문 에 따르면

현재의 최신 기술에서 RL 시스템 설계자는 일반적으로 작업에 대한 사전 지식을 사용하여 특정 옵션 세트를 에이전트가 사용할 수있는 기본 조치 세트에 추가합니다.

같은 논문의 섹션 6.2 학습 작업 계층 구조도 참조하십시오.

내 마음에 오는 첫 번째 아이디어는 작업 계층 구조를 모르는 경우 비 계급적 강화 학습으로 시작하고 나중에 또는 학습하는 동안 구조를 발견하려고 시도해야합니다. 즉, 모델을 일반화하려는 것입니다. 나 에게이 작업은 HMM에 대한 베이지안 모델 병합 기술과 비슷하게 보입니다 (예 :이 논문 참조 ).

— 알렉세이 칼미 코프
소스