LOESS 시계열 모델의 증분 학습


9

현재 시계열 데이터를 작업 중이며 LOESS / ARIMA 모델을 사용할 수 있다는 것을 알고 있습니다.

데이터는 길이가 1000 인 대기열에 벡터로 기록되며 15 분마다 업데이트됩니다.

따라서 새 데이터가 벡터를 푸시하는 동안 이전 데이터가 튀어 나옵니다.

스케줄러에서 전체 모델을 다시 실행할 수 있습니다. 예를 들어 15 분마다 모델을 다시 학습하십시오. 즉, 1000 개의 전체 값을 사용하여 LOESS 모델을 학습하십시오. 그러나 하나의 값만 삽입 할 때마다 다른 999 개의 vlaues로 인해 매우 비효율적입니다. 지난번과 동일합니다.

어떻게 더 나은 성능을 얻을 수 있습니까?

많은 감사


3
"LOESS / ARIMA 모델"이란 무엇입니까? LOESS를 사용하여 비선형 추세가 추정되는 ARIMA 오류가있는 비선형 시간 추세를 의미합니까?
Rob Hyndman

죄송합니다. LOESS 또는 ARIMA 모델을 의미합니다. 예를 들어, LOESS를 사용하여 잔차를 다음과 같이 찾습니다. 잔차 (loess (x ~ time)). 데이터 x는 1000 개의 값을 가진 벡터이므로 15 분마다 업데이트됩니다. 효율적으로 잔차를 얻을 수 있지만 매번 전체 datset을 입력으로 다시 실행할 수는 없습니까? 매번 1 개의 값만 업데이트되므로 다른 999 개의 값은 여전히 ​​지난 시간과 동일합니다.
zhang

하나의 가능한 방법으로, 처음 1000 개의 값을 사용하여 다음 1000 개의 값을 예측할 수 있지만 (LOESS는 4 개의 값만 예측할 수 있지만) 실제 값과 해당 예측 값의 차이로 잔차를 계산합니다. 이것은 내가 원하는 원래의 LOESS 모델이 아닙니다 :-(
zhang

답변:


1

이것을 좀 더 친숙한 것으로 재구성하겠습니다. ARIMA는 아날로그 -PID 근사치입니다. 나는 필수입니다. MA는 P입니다. AR은 D 항인 차분 방정식으로 표현할 수 있습니다. LOESS는 아날로그에서 최소 제곱 피팅 (실제로 하이테크 형)입니다.

따라서 2 차 모델 (PID)을 개선하려면 어떻게해야합니까?

  • 먼저 Kalman Filter를 사용하여 하나의 새로운 정보로 모델을 업데이트 할 수있었습니다.
  • 또한 "그라데이션 부스트 트리"라는 것을 볼 수도 있습니다. 이들의 아날로그를 사용하여 입력이 모두 첫 번째로 공급되는 원시 입력이며 첫 번째의 오류로 보강 된 두 번째 ARIMA 모델을 만듭니다.
  • 여러 모드에 대한 PDF 오류를 검토하는 것이 좋습니다. 오류를 군집화 할 수 있다면 모델을 분할하거나 혼합 모델을 사용하여 입력을 하위 모델로 분리 할 수 ​​있습니다. 하위 모델은 단일 대형 모델보다 로컬 현상학을 더 잘 처리 할 수 ​​있습니다.

내가 묻지 못한 질문 중 하나는 "성능은 무엇을 의미합니까?"입니다. 우리가 명확하게 선한 선한 척도를 가지고 있지 않다면, 후보 방법이 "개선"되는지 알 수있는 방법이 없습니다. 더 나은 모델링, 더 짧은 계산 시간 및보다 효율적인 정보 사용을 원하는 것 같습니다. 실제 데이터에 대해 천성이 있으면이를 알 수 있습니다. 바람을 모델링하는 경우 기능 보강 모델을 찾을 위치를 알거나 유용한 데이터 변환을 찾을 수 있습니다.


1

이것은 황토 또는 ARIMA 모델을 사용하는지에 따라 다른 질문입니다. ARIMA 사례에서 아마도 좋은 시작 값을 갖는 것 외에는 효율성이 거의 없을 것으로 생각되기 때문에 지금까지 황토 문제에 답할 것입니다.

황토 모형은 가중치 회귀를 데이터의 다른 하위 집합에 맞추는 방식으로 작동합니다. 각 적합에 대해 일정 비율의 데이터 만 사용됩니다. 따라서 한쪽 끝에서 하나의 데이터 점을 제거하고 반대쪽 끝에 다른 점을 추가 한 모형을 다시 맞출 때마다 기술적으로 첫 번째 점과 마지막 점을 사용하는 국소 회귀 만 적합하면됩니다. 사이의 모든 국소 회귀는 동일합니다. 이 영향을받지 않은 로컬 회귀 분석의 수는 황토의 스무딩 매개 변수에 따라 다릅니다.

모델에 맞추기 위해 사용중인 모든 패키지를 해킹하여 이전 피팅에서 대부분의 로컬 회귀 분석을 수행 할 수 있으며 데이터의 시작과 끝에 필요한 패키지 만 적합 할 수 있습니다.

그러나 추가 프로그래밍 시간의 비용이 15 분마다 처음부터 모델을 처음부터 맞추는 컴퓨터 시간의 비용보다 실질적으로 적은 경우에만 이것이 가치가있는 것처럼 보입니다. 1000 개의 데이터 포인트 만 있으면 매번 처음부터 모델을 맞추는 것이 그리 큰 일이 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.