심층 강화 학습이 불안정한 이유는 무엇입니까?


13

DeepMind의 심층 강화 학습에 관한 2015 년 논문에서 "안정적인 학습으로 인해 RL과 신경망을 결합하려는 이전의 시도는 크게 실패했습니다"라고 말합니다. 그런 다음이 논문은 관측에 대한 상관 관계를 기반으로이 문제의 원인을 나열합니다.

누군가 이것이 이것이 무엇을 의미하는지 설명해 주시겠습니까? 신경망이 훈련에는 있지만 시험에는 없을 수있는 일부 구조를 학습하는 과적 합의 형태입니까? 아니면 다른 의미입니까?


논문은 http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html 에서 찾을 수 있습니다 .

그리고 내가 이해하려고하는 섹션은 다음과 같습니다.

신경망과 같은 비선형 함수 근사 기가 동작 값 (Q라고도 함)을 나타내는 데 사용되는 경우 강화 학습은 불안정하거나 심지어 분기되는 것으로 알려져 있습니다. 이러한 불안정성에는 몇 가지 원인이 있습니다. 관찰 순서에 존재하는 상관 관계, Q에 대한 작은 업데이트로 인해 정책이 크게 변경되어 데이터 분포가 변경 될 수 있다는 사실, 동작 값과 목표 값 사이의 상관 관계가 있습니다.

우리는 두 가지 핵심 아이디어를 사용하는 새로운 Q- 러닝 변형으로 이러한 불안정성을 해결합니다. 먼저, 우리는 데이터를 무작위 화하는 경험 재생이라고 불리는 생물학적으로 영감을 얻은 메커니즘을 사용하여 관찰 순서에서 상관 관계를 제거하고 데이터 분포의 변화를 부드럽게합니다. 둘째, 주기적으로 만 업데이트되는 대상 값으로 동작 값 (Q)을 조정하여 대상과의 상관 관계를 줄이는 반복 업데이트를 사용했습니다.


상관되지 않은 데이터에 대해 에이전트를 훈련 시키려면 각 단계에서 에이전트 메모리를 업데이트하지 말고 저장 단계를 수정하여 데이터를 역 상관 시키십시오.
narjes karmani

답변:


11

주요 문제는 다른 많은 분야에서와 같이 DNN을 훈련하기가 어렵다는 것입니다. 여기에서 한 가지 문제는 입력 데이터의 상관 관계입니다. 비디오 게임에 대해 생각하면 (실제로 알고리즘을 테스트하기 위해 스크린 샷을 사용하는 경우) 스크린 샷이 한 단계 씩 스크린 샷이 서로 밀접하게 연관되어 있다고 상상할 수 있습니다. 게임은 "지속적으로 발전"합니다. 즉, NN의 경우 문제가 될 수 있습니다. 유사하고 상관 된 입력에 대해 여러 차례의 경사 하강 반복을 수행하면 입력이 과도하게 적합하거나 최소값으로 떨어질 수 있습니다. 이런 이유로 그들은 경험 재생을 사용합니다. 일련의 "스냅 샷"을 게임에 저장 한 다음 섞어서 훈련을하기 위해 몇 단계를 선택합니다. 이런 식으로, 데이터는 더 이상 상관되지 않습니다. 그런 다음 훈련 기간 동안 Q 값 (NN에 의해 ​​예측 됨)이 진행 정책을 어떻게 변경할 수 있는지 확인합니다.


"셔플 된 (shuffled)"데이터 란, 미니 배치로 샘플링 된 임의의 순서를 벗어난 경험을 의미합니까? 그것은 "할인 된 미래의 보상"과 어떻게 관련이 있으며, 이는 순차 경험을 암시하는 것처럼 보입니까?
isobretatel
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.