Google의 DeepMind Atari 논문을 읽었으며 "경험 재생"개념을 이해하려고합니다. 경험 재생은 다른 많은 강화 학습 논문 (특히 AlphaGo 논문)에서 나오므로 어떻게 작동하는지 이해하고 싶습니다. 다음은 일부 발췌문입니다.
먼저, 우리는 데이터를 무작위 화하는 경험 재생이라고 불리는 생물학적으로 영감을 얻은 메커니즘을 사용하여 관찰 순서의 상관 관계를 제거하고 데이터 분포의 변화를 부드럽게합니다.
그런 다음이 논문은 다음과 같이 자세히 설명됩니다.
다른 안정적인 방법은 신경 장착 Q-반복으로, 강화 학습 환경에서 신경망 훈련을 위해 존재하지만, 이러한 방법은 네트워크의 반복 훈련을 포함 드 노보 반복의 수백. 결과적으로이 방법은 알고리즘과 달리 대규모 신경망에서 성공적으로 사용하기에는 비효율적입니다. 우리는 근사치 함수 매개 변수화 되는도 1에 도시 된 깊은 콘볼 루션 신경망 사용. 반복에서 Q-네트워크 파라미터들 (즉, 가중치)이다 . 경험 재생을 수행하기 위해 각 시간 단계 t 에서 에이전트의 경험 를 저장합니다.데이터 세트에서 입니다. 학습하는 동안 저장된 샘플 풀에서 무작위로 균일하게 그려진 경험 샘플 (또는 미니 배치)에 Q- 러닝 업데이트를 적용 합니다. 반복 에서의 Q- 러닝 업데이트 는 다음 손실 기능을 사용합니다.
평신도의 관점에서 경험 재생이란 무엇이며 그 이점은 무엇입니까?