ARIMA 주문 정의 문제


16

이것은 긴 게시물이므로 나와 함께 견딜 수 있기를 바랍니다. 잘못된 부분을 수정하십시오.

저의 목표는 3 주 또는 4주의 과거 데이터를 기반으로 일일 예측을 작성하는 것입니다.

데이터는 변압기 라인 중 하나의 로컬 부하에 대한 15 분 데이터입니다. 계절 ARIMA 프로세스의 모델 순서를 찾는 데 문제가 있습니다. 전력 수요 시계열을 고려하십시오.

원래 시계열 http://i.share.pho.to/80d86574_l.png

처음 3 주가 부분 집합으로 취해지고 차이가 나면 다음 ACF / PACF 도표가 계산됩니다.

서브 세트 http://i.share.pho.to/5c165aef_l.png

첫 번째 차이점 http://i.share.pho.to/b7300cc2_l.png

계절과 첫 번째 차이 http://i.share.pho.to/570c5397_l.png

이 시리즈는 다소 고정 된 것 같습니다. 그러나 계절성은 주 단위 일 수도 있습니다 ( 계절 차이 주 및 2 차 차이 [여기] http://share.pho.to/3owoq 참조 ).

아르 자형나는미디엄(,1,)(,1,)96

아르 자형나는미디엄(0,1,4)(0,1,1)96

Series: x 
ARIMA(0,1,4)(0,1,1)[96] 

    Coefficients:
    ma1      ma2      ma3      ma4     sma1
    -0.2187  -0.2233  -0.0996  -0.0983  -0.9796
    s.e.   0.0231   0.0234   0.0257   0.0251   0.0804

    sigma^2 estimated as 364612:  log likelihood=-15138.91
    **AIC=30289.82   AICc=30289.87   BIC=30323.18**

아르 자형나는미디엄(1,1,1)(2,0,2)96

Series: x 
ARIMA(1,1,1)(2,0,2)[96] 

    Coefficients:
    ar1      ma1    sar1    sar2     sma1     sma2
    0.7607  -1.0010  0.4834  0.4979  -0.3369  -0.4168
    s.e.  0.0163   0.0001  0.0033  0.0116   0.0216   0.0255

    sigma^2 estimated as 406766:  log likelihood=-15872.02
    **AIC=31744.99   AICc=31745.05   BIC=31784.25**

즉, 계절 차이가 적용되지 않습니다. 두 모델의 잔차는 다음과 같습니다 . Ljung Box 통계는 매우 작은 p 값을 제공하여 일부 자기 상관이 여전히 존재 함을 나타냅니다 (?

예측

따라서 어느 것이 더 나은지 결정하기 위해서는 샘플 외부 정확도 테스트가 가장 좋습니다. 따라서 두 모델 모두 24 시간 전에 예측되며 서로 비교됩니다. 결과는 다음과 같습니다. auto.arima http://i.share.pho.to/5d1dd934_l.png 수동 모델 http://i.share.pho.to/7ca69c97_l.png

자동 :

                      ME     RMSE      MAE       MPE      MAPE      MASE        ACF1 Theil's U
Training set   -2.586653 606.3188 439.1367 -1.284165  7.599403 0.4914563 -0.01219792        NA
Test set     -330.144797 896.6998 754.0080 -7.749675 13.268985 0.8438420  0.70219229  1.617834

설명서

                       ME     RMSE      MAE        MPE      MAPE      MASE         ACF1 Theil's U
Training set 2.456596e-03 589.1267 435.6571 -0.7815229  7.509774 0.4875621 -0.002034122        NA
Test set     2.878919e+02 919.7398 696.0593  3.4756363 10.317420 0.7789892  0.731013599  1.281764

질문

당신이 생각할 수 있듯이 이것은 데이터 셋의 처음 3 주에 대한 분석입니다. 나는 다음과 같은 질문으로 마음 속에서 고심하고 있습니다.

  1. 최고의 ARIMA 모델을 선택하려면 어떻게해야합니까 (모든 다른 주문을 시도하고 최상의 MASE / MAPE / MSE를 확인하여 성능 측정 선택이 자체적으로 논의 될 수있는 곳) ..
  2. 온라인 예측에서와 같이 새 모델을 생성하고 매일 예측할 때마다 예측할 경우 연간 추세와 방법을 고려해야합니까? (그런 작은 하위 집합에서 추세는 무시할 만하다고 생각합니다)
  3. 모델 순서가 데이터 세트 전체에서 동일하게 유지 될 것으로 기대하십니까? 즉, 다른 하위 집합을 가져와도 동일한 모델을 제공 할 것입니까?
  4. 이 방법으로 휴일에 대처하는 좋은 방법은 무엇입니까? 아니면 외부 휴일 인형과 함께 ARIMAX가 필요합니까?
  5. 긴 계절 기간에seasonality=672 설명 된대로 모델을 시험하려면 푸리에 시리즈 접근법을 사용해야 합니까?
  6. 그렇다면 이것이 가능할 것입니다 fit<-Arima(timeseries,order=c(0,1,4), xreg=fourier(1:n,4,672)(함수 푸리에는 Hyndman의 블로그 게시물에 정의 된대로)
  7. 푸리에 시리즈에 초기 P 및 Q 구성 요소가 포함되어 있습니까?

FPP 에서 얻은 대부분의 이론적 지식 , 훌륭한 것들!

지수 평활 또는 (동적) 선형 회귀 사용에 대한 조언을하기 전에 비교 작업도 진행 중입니다.

데이터

https://www.dropbox.com/sh/mzx61sskya5ze6x/Zq3A7Q6htH/trafo.txt

암호

data<-read.csv("file", sep=";")
load<-data[,3]

값 이전의 주와 함께 몇 가지 0 값을 제거했습니다.

stepback<-672
load[is.na(load)] <- 0 # Assumed no 0's in first 672 values!
idx <- which(load == 0)
idx <- idx[which(idx>stepback)] 
load[idx] <- load[idx-stepback] 

ED<-ts(load,start=0, end=c(760,96),frequency=96)
x<-window(ED,start=0, end=c(20,96))

재현 가능한 예를 게시하는 것도 가능하지만 이로 인해 게시물이 더 길어 지지만 필요한 경우 가능합니다. 내가 제공해야 할 것이 있으면 알려주세요.

답변:


9
  1. 최고의 ARIMA 모델을 선택하려면 어떻게해야합니까 (모든 다른 주문을 시도하고 최상의 MASE / MAPE / MSE를 확인하여 성능 측정 선택이 자체적으로 논의 될 수있는 곳) ..

샘플 중 위험 평가는 성능 평가 및 모델 선택에 대한 표준입니다. 위험 추정치가 더 많은 데이터에 대해 평균화되도록 교차 검증하는 것이 이상적입니다. FPP는 시계열에 대한 하나의 교차 검증 방법을 설명합니다. 다른 방법에 대한 검토는 Tashman을 참조하십시오.

LJ Tashman (2000). 예측 정확도에 대한 표본 외 테스트 : 분석 및 검토. International Journal of Forecasting, 16 (4), 437–450. 도 : 10.1016 / S0169-2070 (00) 00065-0

물론 교차 검증은 시간이 많이 걸리므로 사람들은 종종 샘플 내 기준을 사용하여 auto.arima가 가장 적합한 모델을 선택하는 방식 인 AIC와 같은 모델을 선택합니다. 이 방법은 최적이 아닌 경우 완벽하게 유효합니다.

  1. 온라인 예측에서와 같이 새 모델을 생성하고 매일 예측할 때마다 예측할 경우 연간 추세와 방법을 고려해야합니까? (그런 작은 하위 집합에서 추세는 무시할 만하다고 생각합니다)

나는 당신이 매년 추세로 무엇을 의미하는지 잘 모르겠습니다. 연간 계절성을 의미한다고 가정하면 실제로 1 년 미만의 데이터로이를 고려할 방법이 없습니다.

  1. 모델 순서가 데이터 세트 전체에서 동일하게 유지 될 것으로 기대하십니까? 즉, 다른 하위 집합을 가져와도 동일한 모델을 제공 할 것입니까?

데이터 생성 방식에 약간의 변경을 가하지 않으면 서 가장 정확한 기본 모델이 데이터 세트 전체에서 동일 할 것입니다. 그러나 어떤 프로 시저 (예 : auto.arima에서 사용하는 프로 시저)에서 선택한 모델이 해당 프로 시저가 데이터의 다른 하위 집합에 적용되는 경우 동일한 모델이된다고 말하는 것과는 다릅니다. 샘플링으로 인한 변동이 모델 선택 절차의 결과에서 변동을 초래하기 때문입니다.

  1. 이 방법으로 휴일에 대처하는 좋은 방법은 무엇입니까? 아니면 외부 휴일 인형과 함께 ARIMAX가 필요합니까?

외부 공휴일 인형이 가장 좋습니다.

  1. 긴 계절 기간에seasonality=672 설명 된대로 모델을 시험하려면 푸리에 시리즈 접근법을 사용해야 합니까?

이 기사에서 언급했듯이 R의 arima 함수는 350보다 큰 계절을 지원하지 않기 때문에 무언가를해야합니다. Fourier 접근법으로 합리적인 성공을 거두었습니다. 다른 옵션으로는 계절 분해 후 예측 (FPP로도 포함), 박쥐 및 박쥐와 같은 지수 평활 모델이 있습니다.

  1. 그렇다면 이것이 가능할 것입니다 fit<-Arima(timeseries,order=c(0,1,4), xreg=fourier(1:n,4,672)(함수 푸리에는 Hyndman의 블로그 게시물에 정의 된대로)

맞습니다. 다른 수의 용어로 실험해야합니다. fourier예측 패키지에는 Hyndman의 블로그에 있는 기능을 대체한다고 가정하는 사양이 약간 다른 기능이 있습니다. 구문은 도움말 파일을 참조하십시오.

  1. 푸리에 시리즈에 초기 P 및 Q 구성 요소가 포함되어 있습니까?

나는 당신이 여기서 무엇을 요구하는지 잘 모르겠습니다. P와 Q는 일반적으로 AR 및 MA 계절 성분의 정도를 나타냅니다. 푸리에 접근법을 사용하면 계절 성분이 없으며 대신 계절과 관련된 푸리에 항에 대한 공변량이 있습니다. 더 이상 계절 ARARI가 아니며 공변량이 계절에 가까운 ARIMAX입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.