답변:
"반복 강화 학습"이란 무엇입니까?
RRL (Recurrent reinforcement learning )은 1996 년에 신경망 거래 시스템을 훈련시키기 위해 처음 도입되었습니다. "Recurrent"는 이전 출력이 입력의 일부로 모델에 공급됨을 의미합니다. 그것은 곧 FX 시장에서 거래로 확장되었습니다.
RRL의 기술은 금융 거래 시스템 구축을위한 성공적인 기계 학습 기법 것으로 밝혀졌다.
"반복 강화 학습"과 일반적인 "강화 학습"(Q-Learning 알고리즘과 같은)의 차이점은 무엇입니까?
RRL의 명확 접근 상이 동적 프로그래밍 및 보강 알고리즘 같은 TD가 학습 및 Q는 학습 추정량하려고 값 기능을 제어 문제에 대한.
RRL의 프레임 워크는 간단하고 우아한 문제의 표현을 만들 수 있습니다, 방지 차원의 벨맨의 저주 와 효율성을 제공하는 강력한 장점 :
RRL 은 Q- 러닝 의 이산화 방법에 의지하지 않고 자연스럽게 가치있는 행동 (포트폴리오 가중치)을 생성합니다 .
RRL 은 잡음이 많은 데이터 세트에 노출 될 때 Q- 러닝 보다 더 안정적인 성능을 제공합니다 . Q- 러닝 알고리즘은 동적 최적화의 재귀 속성으로 인해 값 함수 선택에 더 민감하지만 RRL 알고리즘은 목적 함수를 선택하고 계산 시간을 절약하는 데 더 유연합니다.
다음 은 RRL 알고리즘의 Matlab 구현입니다.
RRL (Recurrent Reinforcement Learning)을 통한 주식 거래
(Deep) Recurrent RL의 구별은 에이전트 관찰을 출력 조치에 맵핑하는 기능이 Recurrent Neural Network라는 것입니다.
반복 신경망은 각 시간 단계에 대해 동일한 방식으로 각 관측치를 순차적으로 처리하는 신경망 유형입니다.