비 정적 환경에서의 강화 학습 [폐쇄]


9

Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까?

Q2 : 그리드 월드에서 주를 방문하면 보상 기능이 변경됩니다. 모든 에피소드는 보상이 초기 상태로 재설정됩니다. 에이전트가 배우고 싶은 것은 "실제로 필요한 경우가 아니라면 돌아 가지 마십시오"입니다. 이 간단한 규칙을 MDP 모델에 통합 할 수 있습니까? Q- 러닝이이 문제를 해결하기위한 최상의 솔루션입니까? 제안이나 사용 가능한 예가 있습니까?

Q3 : 비 정지 환경을 처리하기위한 솔루션으로 경험 재생을 통해 Q- 러닝을 검토하고 있습니다. 이것이 올바른 방법의 사용입니까, 아니면 학습을보다 효율적으로하는 데 도움이됩니까? 그리고 나는 그것이 근사치와 함께 사용되는 것을 보았습니다. gridworld와 같은 단순한 이산화 된 상태 공간에 사용하는 것이 과잉인지 또는 다른 이유가 있는지 확실하지 않습니다.

모든 질문을 처리 할 수없는 경우에도 자유롭게 답변하거나 의견을 보내주십시오.

답변:


10

Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까?

대부분의 기본 RL 에이전트는 온라인 상태이며 온라인 학습은 일반적으로 비 정적 문제를 처리 할 수 ​​있습니다. 또한 제어 문제의 상태 값 및 동작 값 추정기에 대한 업데이트 규칙은 일반적으로 정책이 향상됨에 따라 대상 변경 되기 때문에 고정되지 않은 대상에 대해 작성 됩니다. 이것은 복잡한 것이 아니며 단순히 학습 속도를 사용하는 것입니다.α 값을 추정 할 때 업데이트에서 모든 가중치를 가중 방식으로 평균화하는 것과 반대로 롤링 기하 평균을 효과적으로 적용합니다.

그러나 이것은 에피소드 간 문제 변경 또는 더 긴 시간 척도와 같은 장기적인 비정규 성을 해결합니다. 설명은 짧은 시간 내에 에이전트가 수행 한 조치에 따라 보상 구조를 변경하려는 것처럼 보입니다. 행동에 대한 역동적 인 반응은 단순한 MDP 내에서 "비정규 성"이 아닌 다른 복잡한 MDP로 더 잘 짜여져 있습니다.

상담원은 아직 샘플링하지 않은 환경의 변경 사항을 학습 할 수 없으므로 보상 구조를 변경해도 상담원이 이전에 방문한 상태로 돌아 가지 못하게됩니다. 에이전트에서 RNN과 같은 것을 사용하지 않는 한, 에이전트는 현재 상태에서 표현 된 것 이외의 에피소드에서 이전에 발생한 일에 대한 "메모리"를 갖지 않을 것입니다. 국가의). 여러 에피소드에서 표 형식 Q- 러닝 에이전트를 사용하는 경우 에이전트는 단순히 특정 상태의 가치가 낮다는 사실을 알게됩니다. 상태에 대한 두 번째 또는 세 번째 방문이 해당 효과를 유발하지 않는다는 사실을 알 수 없습니다. 그 지식을 표현하는 방법. 온라인과 에피소드 중반을 배울 수있을 정도로 빠르게 변화에 적응할 수 없습니다.

Q2 : 그리드 월드에서 주를 방문하면 보상 기능이 변경됩니다. 에이전트가 배우고 싶은 것은 "실제로 필요한 경우가 아니라면 돌아 가지 마십시오"입니다.

그것이 당신이 배우기 위해 에이전트가 필요한 전부라면, 아마도 적절한 보상 구조에 의해 장려 될 수 있습니다. 그렇게하기 전에, "실제로 필요한 것"이 무엇을 의미하는지, 그리고 논리적으로 얼마나 타이트해야하는지 스스로 이해해야합니다. 상담원이 이미 또는 최근에 방문한 위치를 방문 할 경우 약간의 벌금을 지정하면 괜찮습니다.

이 간단한 규칙을 MDP 모델에 통합 할 수 있습니까?

예, 방문한 위치에 대한 정보를 주에 추가해야합니다. 이렇게하면 상태 모델이 단순한 그리드 세계보다 더 복잡해져 문제의 차원이 높아지지만 피할 수는 없습니다. 대부분의 실제 문제는 RL 개념을 가르치기 위해 제공된 장난감 예제를 매우 빠르게 능가합니다.

한 가지 대안은 문제를 부분적으로 관찰 가능한 Markov 의사 결정 프로세스 (POMDP)로 구성하는 것 입니다. 이 경우 "참"상태에는 여전히 보상을 계산하는 데 필요한 모든 기록이 포함됩니다 (이것은 컴퓨터의 장난감 문제이므로 여전히 어쨌든 나타내야합니다). 당신이 관찰하게하는 것의 상태에 대한 지식. 일반적으로 이것은 상태 표현을 확장하는 것보다 훨씬 어려운 접근법이므로 여기서는 권장하지 않습니다. 그러나 아이디어가 흥미 롭다면 문제를 사용하여 POMDP를 탐색 할 수 있습니다. 다음은 POMDP 를 해결하기 위해 RNN 과 결합 된 두 가지 RL 알고리즘을 살펴 보는 최근 논문 (2015 년 Google Deep Mind 팀의 글)입니다.

Q3 : 비 정지 환경을 처리하기위한 솔루션으로 경험 재생을 통해 Q- 러닝을 검토하고 있습니다. 이것이 올바른 방법의 사용입니까, 아니면 학습을보다 효율적으로하는 데 도움이됩니까?

경험 재생은 비 정적 환경에서는 도움이되지 않습니다. 실제로 성능이 떨어질 수 있습니다. 그러나 이미 언급했듯이 문제는 실제로 비 정적 환경이 아니라 더 복잡한 상태 역학을 처리하는 것입니다.

당신이 해야하는 기능 근사치에 모습이다, 만약 충분히 큰 수에 대한 국가의 수가 증가. 예를 들어, 역 추적 을 처리 하고 방문한 각 위치를 추적하는 복잡한 보상 수정 규칙이있는 경우 상태가 단일 위치 번호에서 방문한 위치를 표시하는지도로 변경 될 수 있습니다. 예를 들어64 에 대한 상태 8×8 그리드 세계 264방문 사각형을 보여주는 주지도. 값 테이블에서 추적하기에는 너무 높으므로 일반적으로 신경망 (또는 회선 신경망)을 사용하여 상태 값을 추정합니다.

함수 추정기를 사용하면 경험 재생은 학습 프로세스가 불안정 할 수 있으므로 매우 유용합니다. Atari 게임을하기위한 최근의 DQN 접근법은 이런 이유로 경험 재생을 사용합니다.


환경이 정 지적이지 않은 경우 그리드 세계 예에서 t = 1의 상태에있는 것이 t = 2의 해당 상태에있는 것과 동일하지 않다는 사실을 어떻게 처리합니까? 당신이 그들을 별도의 상태로 취급한다면 분명히 상태 공간의 차원이 폭발 할 것입니까?
tryingtolearn

@tryingtolearn : Markov 상태의 핵심은 그 시점에서 MDP가 어떻게 진행되는지에 대한 모든 중요한 세부 사항을 포착한다는 것입니다. 일반적으로 t = 1의 상태에있는 것은 예상되는 미래 보상 및 상태 전환의 관점에서 t = 2의 동일한 상태에있는 것과 다르지 않습니다 . t의 값을 기반으로하는 규칙으로 마무리하면 t를 상태에 넣습니다. 시간 단계에서 보상을받을 수 있지만 시간 단계 수가 제한되면 에피소드가 항상 t = 10에서 종료됩니다. 이 경우 남은 시간을 아는 것이 중요 할 수 있습니다.
Neil Slater

@NeilSlater 귀하의 답변에서 POMDP 및 RNN 아이디어를 확장 할 수 있습니까? 그들은 흥미롭게 들린다. 가능하면 관련 자료를 제공하십시오. 때로는 문헌을 탐색하기가 어렵 기 때문입니다. 방문 국가의 순서를 유지하는 아이디어는 정말로 마음에 들지 않지만, 이것이 지금까지 내가 생각할 수있는 유일한 것이므로 다른 옵션을 찾고 있습니다. 매우 간단한 규칙을 도입해야한다는 점에서 모델이 그렇게 복잡해집니다. 매우 분명한 것이 누락되었거나 올바른 모델과 공식을 사용하고 있지 않은지 확실하지 않습니다.
Voltronika

@NeilSlater 정책 그라디언트 방법과 같은 것을 사용하면 도움이되지 않습니까? 실제로 이러한 종류의 문제를 해결하기위한 표준 이 무엇인지 알고 있습니까?
tryingtolearn

1
@Voltronika POMDP에 대한 단락을 추가하여 답변을 확장했습니다. POMDP로 문제를 프레이밍하면 방문한 위치의 적절한 메모리를 포함하도록 상태를 확장하는 것보다 작업 및 해결이 훨씬 어렵습니다. 따라서 POMDP를 공부하는 것이 목표 인 경우에만 살펴 보시기 바랍니다.
Neil Slater

0

Q1 : Q 학습은 정지 된 환경에서 잘 작동하는 온라인 강화 학습 알고리즘입니다. 모델 (보상 기능 및 전이 확률)이 빠르게 변하지 않는 비 정적 모델과 함께 사용할 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.