Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까?
대부분의 기본 RL 에이전트는 온라인 상태이며 온라인 학습은 일반적으로 비 정적 문제를 처리 할 수 있습니다. 또한 제어 문제의 상태 값 및 동작 값 추정기에 대한 업데이트 규칙은 일반적으로 정책이 향상됨에 따라 대상 이 변경 되기 때문에 고정되지 않은 대상에 대해 작성 됩니다. 이것은 복잡한 것이 아니며 단순히 학습 속도를 사용하는 것입니다.α 값을 추정 할 때 업데이트에서 모든 가중치를 가중 방식으로 평균화하는 것과 반대로 롤링 기하 평균을 효과적으로 적용합니다.
그러나 이것은 에피소드 간 문제 변경 또는 더 긴 시간 척도와 같은 장기적인 비정규 성을 해결합니다. 설명은 짧은 시간 내에 에이전트가 수행 한 조치에 따라 보상 구조를 변경하려는 것처럼 보입니다. 행동에 대한 역동적 인 반응은 단순한 MDP 내에서 "비정규 성"이 아닌 다른 복잡한 MDP로 더 잘 짜여져 있습니다.
상담원은 아직 샘플링하지 않은 환경의 변경 사항을 학습 할 수 없으므로 보상 구조를 변경해도 상담원이 이전에 방문한 상태로 돌아 가지 못하게됩니다. 에이전트에서 RNN과 같은 것을 사용하지 않는 한, 에이전트는 현재 상태에서 표현 된 것 이외의 에피소드에서 이전에 발생한 일에 대한 "메모리"를 갖지 않을 것입니다. 국가의). 여러 에피소드에서 표 형식 Q- 러닝 에이전트를 사용하는 경우 에이전트는 단순히 특정 상태의 가치가 낮다는 사실을 알게됩니다. 상태에 대한 두 번째 또는 세 번째 방문이 해당 효과를 유발하지 않는다는 사실을 알 수 없습니다. 그 지식을 표현하는 방법. 온라인과 에피소드 중반을 배울 수있을 정도로 빠르게 변화에 적응할 수 없습니다.
Q2 : 그리드 월드에서 주를 방문하면 보상 기능이 변경됩니다. 에이전트가 배우고 싶은 것은 "실제로 필요한 경우가 아니라면 돌아 가지 마십시오"입니다.
그것이 당신이 배우기 위해 에이전트가 필요한 전부라면, 아마도 적절한 보상 구조에 의해 장려 될 수 있습니다. 그렇게하기 전에, "실제로 필요한 것"이 무엇을 의미하는지, 그리고 논리적으로 얼마나 타이트해야하는지 스스로 이해해야합니다. 상담원이 이미 또는 최근에 방문한 위치를 방문 할 경우 약간의 벌금을 지정하면 괜찮습니다.
이 간단한 규칙을 MDP 모델에 통합 할 수 있습니까?
예, 방문한 위치에 대한 정보를 주에 추가해야합니다. 이렇게하면 상태 모델이 단순한 그리드 세계보다 더 복잡해져 문제의 차원이 높아지지만 피할 수는 없습니다. 대부분의 실제 문제는 RL 개념을 가르치기 위해 제공된 장난감 예제를 매우 빠르게 능가합니다.
한 가지 대안은 문제를 부분적으로 관찰 가능한 Markov 의사 결정 프로세스 (POMDP)로 구성하는 것 입니다. 이 경우 "참"상태에는 여전히 보상을 계산하는 데 필요한 모든 기록이 포함됩니다 (이것은 컴퓨터의 장난감 문제이므로 여전히 어쨌든 나타내야합니다). 당신이 관찰하게하는 것의 상태에 대한 지식. 일반적으로 이것은 상태 표현을 확장하는 것보다 훨씬 어려운 접근법이므로 여기서는 권장하지 않습니다. 그러나 아이디어가 흥미 롭다면 문제를 사용하여 POMDP를 탐색 할 수 있습니다. 다음은 POMDP 를 해결하기 위해 RNN 과 결합 된 두 가지 RL 알고리즘을 살펴 보는 최근 논문 (2015 년 Google Deep Mind 팀의 글)입니다.
Q3 : 비 정지 환경을 처리하기위한 솔루션으로 경험 재생을 통해 Q- 러닝을 검토하고 있습니다. 이것이 올바른 방법의 사용입니까, 아니면 학습을보다 효율적으로하는 데 도움이됩니까?
경험 재생은 비 정적 환경에서는 도움이되지 않습니다. 실제로 성능이 떨어질 수 있습니다. 그러나 이미 언급했듯이 문제는 실제로 비 정적 환경이 아니라 더 복잡한 상태 역학을 처리하는 것입니다.
당신이 수 해야하는 기능 근사치에 모습이다, 만약 충분히 큰 수에 대한 국가의 수가 증가. 예를 들어, 역 추적 을 처리 하고 방문한 각 위치를 추적하는 복잡한 보상 수정 규칙이있는 경우 상태가 단일 위치 번호에서 방문한 위치를 표시하는지도로 변경 될 수 있습니다. 예를 들어64 에 대한 상태 8 × 8 그리드 세계 264방문 사각형을 보여주는 주지도. 값 테이블에서 추적하기에는 너무 높으므로 일반적으로 신경망 (또는 회선 신경망)을 사용하여 상태 값을 추정합니다.
함수 추정기를 사용하면 경험 재생은 학습 프로세스가 불안정 할 수 있으므로 매우 유용합니다. Atari 게임을하기위한 최근의 DQN 접근법은 이런 이유로 경험 재생을 사용합니다.