시계열 예측에 강화 학습을 적용 할 수 있습니까?


답변:


10

그렇습니다. 그러나 예측과 시스템의 지속적인 행동간에 상당한 피드백이 없다면 일반적으로 작업에 좋은 도구는 아닙니다.

RL 예측 또는 제어 알고리즘을 사용할 가치가있는 RL (Reinforcement Learning) 문제를 구성하려면 몇 가지 구성 요소를 식별해야합니다.

  • 환경 중 하나 인 것이 시퀀스에서 관찰 측정 할 수 /.

  • 에이전트 현재 관찰 할 수있는 상태 및 포획 작업 순서와 동일합니다.

  • 시퀀스에서 상태 의 진화는 현재 상태 와 취한 조치 의 일부 조합에 의존해야 하며 확률적일 수도 있습니다.

  • RL 에이전트가 관찰하거나 측정 할 수 있는 보상 신호 가 있어야합니다 . 보상 의 가치는 국가의 진화와 동일한 요소에 의존해야하지만 다른 방식 으로 보상에 의존 할 수 있습니다.

시계열 예측의 일반적인 경우는 예측을 동작으로 처리하여 상태 진화를 현재 상태 (플러스 임의성)에만 의존하고 상태 및 동작을 기반으로하는 보상에 따라이를 처리 할 수 ​​있습니다. 이를 통해 RL을 적용 할 수 있지만 인과 관계는 환경에서 예측 모델로 한 방향으로 만 흐릅니다. 예를 들어 보상에 대해 할 수있는 최선의 방법은 예측의 정확성에 대한 몇 가지 메트릭을 사용하는 것입니다. 좋은 예측과 나쁜 예측의 결과는 원래 환경에 영향을 미치지 않습니다. 본질적으로 시퀀스에 대한 일부 예측 모델 (예 : 신경망)을 RL 계층에 배치하여 감독 학습 문제에 대한 기본 데이터 세트 처리로 쉽게 대체 할 수 있습니다.

일련의 예측 문제를 RL 문제로 의미있게 확장 할 있는 한 가지 방법 은 예측을 기반으로 한 결정과 해당 결정의 영향을받는 시스템의 상태를 포함하도록 환경의 범위를 늘리는 것입니다. 예를 들어, 주가를 예측하는 경우 주에 포트폴리오와 펀드를 포함 시키십시오. 마찬가지로 행동은 예측을 멈추고 구매 및 판매 명령이됩니다. 이렇게하면 가격 예측 구성 요소가 개선되지 않으며 (LSTM과 같은 적절한 도구를 사용하여 별도의 문제로 처리하는 것이 더 나을 수도 있지만) RL 문제로 전체적으로 문제를 구성합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.