시계열 분석에 반복 신경망을 사용하는 올바른 방법


67

재발 신경망은 "메모리"계층을 가지고 있다는 점에서 "정규"네트워크와 다릅니다. 이 계층으로 인해 반복 NN은 시계열 모델링에 유용합니다. 그러나 사용법을 올바르게 이해하고 있는지 잘 모르겠습니다.

:의은 (왼쪽에서 오른쪽으로) 나는 다음과 같은 시계열 있다고 가정 해 봅시다 [0, 1, 2, 3, 4, 5, 6, 7], 내 목표는 예측하는 것입니다 i포인트를 사용하여 번째 지점을 i-1하고 i-2(각각에 대한 입력으로 i>2). "정기적 인"비 반복 ANN에서는 다음과 같이 데이터를 처리합니다.

 target| input
      2| 1 0
      3| 2 1
      4| 3 2
      5| 4 3
      6| 5 4
      7| 6 5 

그런 다음 두 개의 입력과 하나의 출력 노드로 네트를 만들고 위의 데이터로 훈련시킵니다.

반복적 인 네트워크의 경우이 프로세스를 어떻게 변경해야합니까?


RNN의 데이터를 구성하는 방법 (예 : LSTM)을 알고 있습니까? 감사합니다
mik1904

답변:


49

실제로 설명하는 것은 "슬라이딩 시간 창"방식이며 반복 네트워크와는 다릅니다. 이 기술은 모든 회귀 알고리즘과 함께 사용할 수 있습니다. 이 접근 방식에는 큰 한계가 있습니다. 입력의 이벤트는 다른 입력 / 출력과 상관 관계가있을 수 있습니다. 여기에서 t는 창의 크기입니다. 여기서 t는 창의 크기입니다.

예를 들어 주문 t의 Markov 체인을 생각할 수 있습니다. RNN은 이론 상으로는 이것을 겪지 않지만 실제로는 학습이 어렵습니다.

피드 포워드 네트워크와 달리 RNN을 설명하는 것이 가장 좋습니다. (매우) 간단한 피드 포워드 네트워크 고려하십시오. 여기서 는 출력, 는 가중치 매트릭스, 는 입력입니다.y=WxyWx

이제 반복 네트워크를 사용합니다. 이제 일련의 입력이 있으므로 i 번째 입력에 대해 입력을 로 표시합니다. 그런 다음 해당 i 번째 출력은 통해 계산됩니다 .xiyi=Wxi+Wryi1

따라서 이전 단계의 출력을 전류 출력에 선형으로 통합하는 또 다른 가중치 행렬 이 있습니다.Wr

이것은 물론 간단한 아키텍처입니다. 가장 일반적인 것은 숨겨진 계층이 반복적으로 연결되어있는 아키텍처입니다. 하자 타임 스텝 난에 숨겨진 계층을 표시합니다. 공식은 다음과 같습니다.hi

h0=0
hi=σ(W1xi+Wrhi1)
yi=W2hi

여기서 는 S 자형과 같은 적절한 비선형 / 전달 함수입니다. 과 는 입력과 숨김, 숨김과 출력 레이어 사이의 연결 가중치입니다. 은 반복 가중치를 나타냅니다.W 1σW1W2Wr

구조의 다이어그램은 다음과 같습니다.

개략도


2
Kalman 필터를 사용하는 반복 네트워크의 유사점을 잘못 알고 있습니까? 이전 출력이 현재 출력에 영향을 미치기 때문에 이것을 알 수 있습니다. 재귀 네트워크의 실질적인 이점은 무엇입니까?
Vass

10
둘 다 상태 공간 모델이라는 의미에서 작성되었습니다. 그러나 많은 차이점이 있습니다. KF는 숨겨진 상태가 적절한 확률 적 의미를 갖는다는 점에서 완전히 확률 적입니다. 반면에 RNN은 결정 론적이며 결과 만 사용하여 분포를 차별적 인 방식으로 모델링 할 수 있습니다. 또한 KF는 일반적으로 EM으로 추정되는 반면 RNN은 기울기 기반 방법으로 추정됩니다. 더 자세한 정보를 원하시면 언제든지 질문을 게시하고 링크를 보내주십시오. 그러나 의견이 너무 제한되어 있습니다.
bayerj

1
아니요, 슬라이딩 시간 창은 입력의 경우에만 네트의 출력에서 ​​가장하지 않습니다.
bayerj

2
@ bayerj 훌륭한 정보이지만 질문에 대답하지 않았다고 생각합니다. RNN의 슬라이딩 시간 창에 있지 않은 입력 출력 벡터를 어떻게 구성합니까? OP의 데이터 세트와 함께 몇 가지 샘플을 제공 할 수 있습니까?
Levitikon

1
이것은 RNN에 대한 매우 유익한 설명이지만 OP의 질문에 대한 답을 찾지 못했습니다. 되풀이 네트워크의 경우 어떻게 [훈련]을 변경해야합니까?
wehnsdaefflae 2016 년

9

입력 데이터에 여러 시계열 변환을 사용하는 것을 고려할 수도 있습니다. 예를 들어, 입력은 다음과 같습니다.

  1. 가장 최근의 간격 값 (7)
  2. 다음 가장 최근 간격 값 (6)
  3. 가장 최근과 다음 가장 최근의 델타 (7-6 = 1)
  4. 가장 최근의 세 번째 간격 값 (5)
  5. 가장 최근의 두 번째와 세 번째 사이의 델타 (6-5 = 1)
  6. 마지막 세 구간의 평균 ((7 + 6 + 5) / 3 = 6)

따라서, 기존의 신경망에 대한 입력이이 6 개의 변환 된 데이터라면 일반적인 역 전파 알고리즘이 패턴을 배우는 것은 어려운 일이 아닙니다. 그러나 원시 데이터를 가져와 신경망에 대한 위의 6 개 입력으로 변환하는 변환을 코딩해야합니다.


1
당신은 이것에 많은 도메인 지식을 넣었습니다. 시계열 패턴을 직접 인식하지 못하면 어떻게됩니까? 그런 다음 특히 과거에 무한히 멀리 떨어진 입력에 의존하는 경우 어떻게 모델을 구성 할 수 있습니까?
bayerj

무한한 것은 까다로울 것입니다. 그러나이 도메인과 관련이없는 데이터를 변환하면 학습 알고리즘이이를 쉽게 파악하고 그에 따라 가중치를 조정할 수 있으므로 변환을 수행하는 한 큰 문제는 아닙니다. 관련된 데이터. 따라서 다양한 변환을 사용할 수 있으면 성공 확률이 높아집니다.
rossdavidh

다음 작업을 상상해보십시오. 넷에 대한 첫 번째 입력은 또는 입니다. 그런 다음, 네트는 임의의 횟수 (10, 1000, 100000)의 시간 간격에 대해 간격 에서 노이즈를 수신합니다 . 다시 을 수신하자마자 이전에 본 것에 따라 또는 을 출력해야합니다. 이것이 "래칭 벤치 마크"입니다. 이것은 시퀀스 학습 문제의 일반적인 설정입니다. 반복 네트워크의 큰 장점은 입력 자체의 전체 변환 자체가 인간 전문가 또는 기능 엔지니어가 학습하고 제공하지 않는다는 것입니다. 1 [ - 0.1 , 0.1 ] 1 0 101[0.1,0.1]101
bayerj

2
반복 신경망을 사용해서는 안된다고 말하고 싶지 않습니다. 꽤 대조적 인 것. 그러나 (질문에 명시된 바와 같이) 과제가 (i-1) 및 (i-2) 지점에서 i 번째를 예측하는 것이라면 해당 지식을 활용하여 더 나은 결과를 더 빨리 얻을 수 있습니다. RNN이 좋은 아이디어는 아니라고 제안하는 것은 아니지만 훈련 과정을 가속화하는 데 필요한 모든 도메인 지식을 사용하는 것이 좋습니다 (훈련이 지역 최소에 걸리는 가능성 등을 줄이는 등). .
rossdavidh

4

또 다른 가능성은 HCNN (History Consistent Neural Networks) 입니다. 이 아키텍처는 위에서 언급 한 설정에 더 적합 할 수 있습니다. 입력 및 출력 변수 사이의 임의적 인 구별을 제거하고 대신 모든 관찰 가능 항목에 대한 교육을 통해 전체 시스템의 전체 기본 역학을 복제하려고하기 때문입니다.

Siemens에서 일할 때 Springer Verlag의 저서 : Zimmermann, Grothmann, Tietz, von Jouanne-Diedrich : Historical Consistent Neural Networks를 사용한 시장 모델링, 예측 및 위험 분석 에서이 아키텍처에 관한 논문을 출판했습니다.

여기서 패러다임에 대한 아이디어를 제공하는 것은 짧은 발췌입니다.

이 기사에서는 HCNN (History Consistent Neural Network)이라는 새로운 유형의 반복 NN을 소개합니다. HCNN을 사용하면 여러 시간 규모에 걸쳐 상호 작용이 많은 비선형 동적 시스템을 모델링 할 수 있습니다. HCNN은 입력과 출력을 구분하지 않지만 넓은 상태 공간의 동역학에 내장 된 관측 가능 모델을 모델링합니다.

[...]

RNN은 비선형 회귀 접근 방식을 사용하여 개방형 동적 시스템을 모델링하고 예측하는 데 사용됩니다. 그러나 다양한 비선형 역학이 시간에 따라 서로 상호 작용하는 대형 시스템의 맥락에서 많은 실제 기술 및 경제 응용 프로그램을 볼 수 있어야합니다. 모델에 투영하면 입력과 출력을 구분하지 않고 관찰 가능 항목에 대해 말합니다. 대규모 시스템의 부분적 관측 가능성으로 인해 관측 가능 항목의 역학을 설명 할 수있는 숨겨진 상태가 필요합니다. 관측 가능 변수와 숨겨진 변수는 동일한 방식으로 모델에서 처리해야합니다. 관측 가능 항목이라는 용어는 입력 및 출력 변수를 포함합니다 (예 :Yτ:=(yτ,uτ)). 모든 옵저버 블의 동적 특성을 설명 할 수있는 모델을 구현할 수 있다면 개방형 시스템을 닫을 수있는 위치에있게됩니다.

... 그리고 결론에서 :

대규모 반복 신경망에서 숨겨진 변수와 관찰 된 변수의 공동 모델링은 계획 및 위험 관리에 대한 새로운 전망을 제공합니다. HCNN에 기반한 앙상블 접근법은 미래 확률 분포 예측에 대한 대안적인 접근법을 제공합니다. HCNN은 과거의 관측 가능한 동역학에 대한 완벽한 설명을 제공합니다. 그러나 세계의 부분적 관찰 가능성은 숨겨진 변수의 고유하지 않은 재구성과 다른 미래 시나리오를 초래합니다. 역학의 진정한 발전은 알려지지 않았고 모든 경로가 동일한 확률을 갖기 때문에 앙상블의 평균은 최상의 예측으로 간주 될 수있는 반면, 분배 대역폭은 시장 위험을 설명합니다. 오늘, HCNN 예측을 사용하여 조달 결정 시점을 최적화하기 위해 에너지 및 귀금속 가격을 예측합니다. 현재 진행중인 작업은 실제 리스크 관리 및 금융 시장 애플리케이션에서 앙상블의 속성 분석 및 이러한 개념의 구현에 관한 것입니다.

논문의 일부를 공개적으로 볼 수 있습니다 : 여기


다운로드하여 테스트 할 수있는 구현이 있습니까?
Julien L

@JulienL : 불행히도 이것이 Siemens의 독점 작품이기 때문은 아닙니다.
vonjd

너무 나쁘다, 그것은 유망 해 보였다.
Julien L

@JulienL : 공동 저자 인 Georg에 문의하시기 바랍니다. 그의 이메일은 논문의 첫 페이지에 있습니다 (위 링크 참조).
vonjd 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.