이것은 긴 게시물이므로 나와 함께 견딜 수 있기를 바랍니다. 잘못된 부분을 수정하십시오.
저의 목표는 3 주 또는 4주의 과거 데이터를 기반으로 일일 예측을 작성하는 것입니다.
데이터는 변압기 라인 중 하나의 로컬 부하에 대한 15 분 데이터입니다. 계절 ARIMA 프로세스의 모델 순서를 찾는 데 문제가 있습니다. 전력 수요 시계열을 고려하십시오.
원래 시계열 http://i.share.pho.to/80d86574_l.png
처음 3 주가 부분 집합으로 취해지고 차이가 나면 다음 ACF / PACF 도표가 계산됩니다.
서브 세트 http://i.share.pho.to/5c165aef_l.png
첫 번째 차이점 http://i.share.pho.to/b7300cc2_l.png
계절과 첫 번째 차이 http://i.share.pho.to/570c5397_l.png
이 시리즈는 다소 고정 된 것 같습니다. 그러나 계절성은 주 단위 일 수도 있습니다 ( 계절 차이 주 및 2 차 차이 [여기] http://share.pho.to/3owoq 참조 ).
Series: x
ARIMA(0,1,4)(0,1,1)[96]
Coefficients:
ma1 ma2 ma3 ma4 sma1
-0.2187 -0.2233 -0.0996 -0.0983 -0.9796
s.e. 0.0231 0.0234 0.0257 0.0251 0.0804
sigma^2 estimated as 364612: log likelihood=-15138.91
**AIC=30289.82 AICc=30289.87 BIC=30323.18**
Series: x
ARIMA(1,1,1)(2,0,2)[96]
Coefficients:
ar1 ma1 sar1 sar2 sma1 sma2
0.7607 -1.0010 0.4834 0.4979 -0.3369 -0.4168
s.e. 0.0163 0.0001 0.0033 0.0116 0.0216 0.0255
sigma^2 estimated as 406766: log likelihood=-15872.02
**AIC=31744.99 AICc=31745.05 BIC=31784.25**
즉, 계절 차이가 적용되지 않습니다. 두 모델의 잔차는 다음과 같습니다 . Ljung Box 통계는 매우 작은 p 값을 제공하여 일부 자기 상관이 여전히 존재 함을 나타냅니다 (?
예측
따라서 어느 것이 더 나은지 결정하기 위해서는 샘플 외부 정확도 테스트가 가장 좋습니다. 따라서 두 모델 모두 24 시간 전에 예측되며 서로 비교됩니다. 결과는 다음과 같습니다. auto.arima http://i.share.pho.to/5d1dd934_l.png 수동 모델 http://i.share.pho.to/7ca69c97_l.png
자동 :
ME RMSE MAE MPE MAPE MASE ACF1 Theil's U
Training set -2.586653 606.3188 439.1367 -1.284165 7.599403 0.4914563 -0.01219792 NA
Test set -330.144797 896.6998 754.0080 -7.749675 13.268985 0.8438420 0.70219229 1.617834
설명서
ME RMSE MAE MPE MAPE MASE ACF1 Theil's U
Training set 2.456596e-03 589.1267 435.6571 -0.7815229 7.509774 0.4875621 -0.002034122 NA
Test set 2.878919e+02 919.7398 696.0593 3.4756363 10.317420 0.7789892 0.731013599 1.281764
질문
당신이 생각할 수 있듯이 이것은 데이터 셋의 처음 3 주에 대한 분석입니다. 나는 다음과 같은 질문으로 마음 속에서 고심하고 있습니다.
- 최고의 ARIMA 모델을 선택하려면 어떻게해야합니까 (모든 다른 주문을 시도하고 최상의 MASE / MAPE / MSE를 확인하여 성능 측정 선택이 자체적으로 논의 될 수있는 곳) ..
- 온라인 예측에서와 같이 새 모델을 생성하고 매일 예측할 때마다 예측할 경우 연간 추세와 방법을 고려해야합니까? (그런 작은 하위 집합에서 추세는 무시할 만하다고 생각합니다)
- 모델 순서가 데이터 세트 전체에서 동일하게 유지 될 것으로 기대하십니까? 즉, 다른 하위 집합을 가져와도 동일한 모델을 제공 할 것입니까?
- 이 방법으로 휴일에 대처하는 좋은 방법은 무엇입니까? 아니면 외부 휴일 인형과 함께 ARIMAX가 필요합니까?
- 긴 계절 기간에
seasonality=672
설명 된대로 모델을 시험하려면 푸리에 시리즈 접근법을 사용해야 합니까? - 그렇다면 이것이 가능할 것입니다
fit<-Arima(timeseries,order=c(0,1,4), xreg=fourier(1:n,4,672)
(함수 푸리에는 Hyndman의 블로그 게시물에 정의 된대로) - 푸리에 시리즈에 초기 P 및 Q 구성 요소가 포함되어 있습니까?
FPP 에서 얻은 대부분의 이론적 지식 , 훌륭한 것들!
지수 평활 또는 (동적) 선형 회귀 사용에 대한 조언을하기 전에 비교 작업도 진행 중입니다.
데이터
https://www.dropbox.com/sh/mzx61sskya5ze6x/Zq3A7Q6htH/trafo.txt
암호
data<-read.csv("file", sep=";")
load<-data[,3]
값 이전의 주와 함께 몇 가지 0 값을 제거했습니다.
stepback<-672
load[is.na(load)] <- 0 # Assumed no 0's in first 672 values!
idx <- which(load == 0)
idx <- idx[which(idx>stepback)]
load[idx] <- load[idx-stepback]
ED<-ts(load,start=0, end=c(760,96),frequency=96)
x<-window(ED,start=0, end=c(20,96))
재현 가능한 예를 게시하는 것도 가능하지만 이로 인해 게시물이 더 길어 지지만 필요한 경우 가능합니다. 내가 제공해야 할 것이 있으면 알려주세요.