DeepMind의 심층 강화 학습에 관한 2015 년 논문에서 "안정적인 학습으로 인해 RL과 신경망을 결합하려는 이전의 시도는 크게 실패했습니다"라고 말합니다. 그런 다음이 논문은 관측에 대한 상관 관계를 기반으로이 문제의 원인을 나열합니다.
누군가 이것이 이것이 무엇을 의미하는지 설명해 주시겠습니까? 신경망이 훈련에는 있지만 시험에는 없을 수있는 일부 구조를 학습하는 과적 합의 형태입니까? 아니면 다른 의미입니까?
논문은 http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html 에서 찾을 수 있습니다 .
그리고 내가 이해하려고하는 섹션은 다음과 같습니다.
신경망과 같은 비선형 함수 근사 기가 동작 값 (Q라고도 함)을 나타내는 데 사용되는 경우 강화 학습은 불안정하거나 심지어 분기되는 것으로 알려져 있습니다. 이러한 불안정성에는 몇 가지 원인이 있습니다. 관찰 순서에 존재하는 상관 관계, Q에 대한 작은 업데이트로 인해 정책이 크게 변경되어 데이터 분포가 변경 될 수 있다는 사실, 동작 값과 목표 값 사이의 상관 관계가 있습니다.
우리는 두 가지 핵심 아이디어를 사용하는 새로운 Q- 러닝 변형으로 이러한 불안정성을 해결합니다. 먼저, 우리는 데이터를 무작위 화하는 경험 재생이라고 불리는 생물학적으로 영감을 얻은 메커니즘을 사용하여 관찰 순서에서 상관 관계를 제거하고 데이터 분포의 변화를 부드럽게합니다. 둘째, 주기적으로 만 업데이트되는 대상 값으로 동작 값 (Q)을 조정하여 대상과의 상관 관계를 줄이는 반복 업데이트를 사용했습니다.