나는 계층 적 강화 학습 문제를 연구 해 왔고, 많은 논문들이 정책 학습을위한 알고리즘을 제안하고 있지만, 모두 도메인에서 활동의 계층 구조를 설명하는 그래프 구조를 미리 알고 있다고 가정하는 것 같습니다. 예를 들어 Dietterich의 계층 적 강화 학습 을 위한 MAXQ 방법 은 간단한 택시 도메인의 작업 및 하위 작업 그래프를 설명하지만이 그래프가 어떻게 검색되는지는 설명하지 않습니다. 정책뿐만 아니라이 그래프의 계층 구조를 어떻게 배우겠습니까?
다시 말해, 논문의 예를 사용하여, 세계에 대한 사전 지식이 거의없고, 기본 이동 좌 / 이동 오른쪽 등의 조치만으로도 택시가 객관적으로 운전한다면, 어떻게 더 높은 수준의 행동을 배우게 될까요? 픽업 승무원? 논문을 올바르게 이해하고 있고 이해하지 못하는 경우 이러한 고급 조치에 대한 정책을 업데이트하는 방법을 제안하지만 처음부터 구성하는 방식은 제안하지 않습니다.