시계열 예측을위한 데이터 보강 전략


13

시계열 예측에서 "데이터 확대"를 수행하는 두 가지 전략을 고려하고 있습니다.

먼저 약간의 배경 지식이 필요합니다. 시계열의 다음 단계를 예측하기 위한 예측 변수 {나는} 는 일반적으로 시계열 과거 상태와 예측 변수의 과거 상태 두 가지에 의존하는 함수입니다.

({나는1},에스1)

좋은 를 얻기 위해 시스템을 조정 / 훈련 하려면 충분한 데이터가 필요합니다. 사용 가능한 데이터로는 충분하지 않을 수 있으므로 데이터 확대를 고려하십시오.

첫 번째 접근법

우리는 시계열이 있다고 가정 {나는} 으로, 1나는 . 또한 다음 조건을 만족하는 ϵ 가 있다고 가정 합니다. 0<ϵ<|나는+1나는|나는{1,,} .

우리는 새로운 시계열을 구성 할 수있다 {나는=나는+아르 자형나는} 여기서, 아르 자형나는 분포의 실현 (0,ϵ2).

그런 다음, {나는} 에서만 손실 함수를 최소화하는 대신 {나는} 에서도이를 수행합니다 . 최적화 과정이 걸리는 경우에 따라서, 미디엄 단계를, 우리는 예측 "초기화"를 가지고 2미디엄 시간을, 우리는 대략 계산됩니다 2미디엄(1) 예측 내부 상태를.

두 번째 접근법

이전과 같이 {나는} 를 계산 하지만 {나는} 사용하여 예측 변수의 내부 상태를 업데이트하지 않지만 {나는} 합니다. 손실 함수를 계산할 때 두 계열 만 함께 사용하므로 대략 미디엄(1) 예측 변수 내부 상태를 계산합니다.

물론, 여기에는 계산 작업이 적지 만 (알고리즘이 약간 추악하지만) 지금은 중요하지 않습니다.

의심

문제는 통계적 관점에서 볼 때 "최상의"옵션은 무엇입니까? 그리고 왜?

내 직감은 첫 번째 것이 더 좋다고 말합니다. 왜냐하면 내부 상태와 관련된 가중치를 "정규화"하는 데 도움이되고 두 번째 것은 관측 된 시계열의 과거와 관련된 가중치를 정규화하는 데 도움이되기 때문입니다.


특별한:

  • 시계열 예측을 위해 데이터 확대를 수행 할 다른 아이디어가 있습니까?
  • 훈련 세트에서 합성 데이터에 가중치를 부여하는 방법은 무엇입니까?

답변:


6

시계열 예측을 위해 데이터 확대를 수행 할 다른 아이디어가 있습니까?

나는 현재 같은 문제에 대해 생각하고 있습니다. 나는 종이 발견했다 "길쌈 신경망을 사용하여 시계열 분류를위한 데이터 증원" 르 Guennec 등으로합니다. 그러나 예측은 다루지 않습니다. 여전히 언급 된 확대 방법은 유망 해 보입니다. 저자는 두 가지 방법을 전달합니다.

창 슬라이싱 (WS)

컴퓨터 비전 커뮤니티 (8,10)에서 영감을 얻은 첫 번째 방법은 시계열에서 조각을 추출하고 조각 수준에서 분류를 수행하는 것입니다. 이 방법은 [6]의 시계열에 도입되었습니다. 훈련시, 클래스 y의 시계열로부터 추출 된 각 슬라이스에는 동일한 클래스가 할당되고, 그 슬라이스를 사용하여 분류자가 학습된다. 슬라이스의 크기는이 방법의 매개 변수입니다. 테스트 시간에 테스트 시계열의 각 조각은 학습 된 분류기를 사용하여 분류되며 예측 된 레이블을 결정하기 위해 과반수 투표가 수행됩니다. 이 방법을 다음에서는 WS (Windows 슬라이싱)라고합니다.

창 뒤틀림 (WW)

우리가 사용하는 마지막 데이터 확대 기술은 시계열에 따라 다릅니다. 그림 2와 같이 임의로 선택한 시계열 조각을 속도를 높이거나 낮춤으로써 변형됩니다. 원본 조각의 크기는이 방법의 매개 변수입니다. 그림 2는 "ECG200"데이터 세트와 해당 변환 데이터의 시계열을 보여줍니다. 이 방법은 길이가 다른 입력 시계열을 생성합니다. 이 문제를 해결하기 위해 변환 된 시계열에서 모두 동일한 길이를 갖도록 창 슬라이싱을 수행합니다. 이 백서에서는 워핑 비율 만 0.5또는을 고려 2하지만 다른 비율을 사용할 수 있으며 훈련 세트에 대한 교차 검증을 통해 최적의 비율을 미세 조정할 수도 있습니다. 이하에서는이 방법을 WW (Window Warping)라고한다.

종이에서 그림 2

저자는 시리즈의 90 %를 그대로 유지했다 (즉 WS는 90 % 슬라이스로 설정되었고 WW의 경우 10 %는 뒤 틀렸다). 이 방법은 이미지 윤곽선의 1D 표현을 제외하고 여러 유형의 (시간) 계열 데이터에서 분류 오류를 줄이는 것으로보고되었습니다. 저자는 여기에서 데이터를 가져 왔습니다 : http://timeseriesclassification.com

훈련 세트에서 합성 데이터에 가중치를 부여하는 방법은 무엇입니까?

이미지 기능 보강에서는 기능 보강이 이미지 클래스를 변경하지 않기 때문에 실제 데이터로 가중치를 부여하는 것이 일반적입니다. 시계열 예측 (및 시계열 분류) 다를 있습니다.

  1. 시계열은 인간에게 연속적인 대상으로 쉽게 인식 할 수 없기 때문에 얼마나 많은 변조를했는지에 따라 여전히 같은 클래스입니까? 약간만 잘라서 뒤틀리고 클래스가 시각적으로 구별되는 경우 분류 작업에 문제가되지 않을 수 있습니다.
  2. 예측을 위해 나는

    2.1 WS는 여전히 좋은 방법입니다. 시리즈의 어느 90 % 부분을 보더라도 동일한 규칙 => 전체 가중치를 기반으로 예측을 계속 기대합니다.

    2.2 WW : 시리즈의 끝 부분에 가까울수록 더 조심해야합니다. 직관적으로, 곡선의 가장 최근의 특징이 가장 관련이 있다고 가정하면 0 (끝에서 휨)과 1 (시작에서 휨) 사이에서 가중 계수가 나타납니다.


6

시계열 예측을 위해 데이터 확대를 수행 할 다른 아이디어가 있습니까?

DeVries와 Taylor의 "피처 공간의 데이터 집합 기능 보강"을 기반으로하는 다른 접근 방식의 또 다른 대답입니다 .

이 작업에서는 피처 공간의 샘플 간 외삽을 사용하여 데이터 세트를 보강하고지도 학습 알고리즘의 성능을 향상시킬 수 있음을 보여줍니다 . 우리의 접근 방식의 주요 이점은 도메인에 독립적 이므로 전문 지식이 필요하지 않으므로 다양한 유형의 문제에 적용 할 수 있다는 것입니다.

유망한 소리. 원칙적으로 피쳐 공간에서 표현을 작성하기 위해 모든 자동 인코더 를 사용할 수 있습니다 . 이러한 기능은 보간 또는 외삽이 가능합니다.

제이케이'

이 논문은 다시 서열 분류만을 다룬다. 그러나 다시 IMO의 원리는 회귀 분석에서 동일합니다. 실제 데이터와 동일한 분포에서 새로운 데이터를 얻을 수 있습니다.

AE 확대 아키텍처

신경망에 의한 이러한 데이터 생성 원리를 자세히 설명하면 GAN (Generative Adversarial Networks)으로 끝날 것입니다 . 비슷한 방식으로 증강 데이터를 생성하여 가장 정교한 최첨단 방법이 될 수 있습니다.


4

나는 최근 Bergmeir, Hyndman 및 Benitez 의이 논문 에서 영감을 얻은 또 다른 접근법을 구현했습니다 .

이러한 방식으로, 초기 시계열을 상당히 잘 나타내는 필요한만큼의 추가 시계열이 생성 될 수있다. 다음은 유사한 시계열을 추가로 생성하기위한 실제 데이터에 대한 응용 프로그램의 예입니다.

증강 시리즈

여기서 확대는 원본 논문에서 제안한 Box Cox가 아닌 Yeo-Johnson 변환을 사용하여 표시됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.