계절 성과 트렌드, 이상한 결과를 가진 ARIMA 예측


9

ARIMA 모델을 사용하여 예측을 진행하면서 계절 성과 드리프트에 맞는 ARIMA를 기반으로 예측을 개선 할 수있는 방법을 이해하려고합니다.

내 데이터는 다음과 같은 시계열입니다 (3 년 동안 명확한 추세와 눈에 띄는 계절성이 있으며 지연 12, 24, 36에서 자기 상관으로 지원되지 않는 것 같습니다 ??).

    > bal2sum3years.ts
             Jan     Feb     Mar     Apr     May     Jun     Jul     Aug          
    2010 2540346 2139440 2218652 2176167 2287778 1861061 2000102 2560729 
    2011 3119573 2704986 2594432 2362869 2509506 2434504 2680088 2689888 
    2012 3619060 3204588 2800260 2973428 2737696 2744716 3043868 2867416 
             Sep     Oct     Nov     Dec
    2010 2232261 2394644 2468479 2816287
    2011 2480940 2699780 2760268 3206372
    2012 2951516 3119176 3032960 3738256

제안 된 auto.arima(bal2sum3years.ts)모델은 다음 모델을 제공했습니다.

    Series: bal2sum3years.ts 
    ARIMA(0,0,0)(0,1,0)[12] with drift         

    Coefficients:
              drift
          31725.567
    s.e.   2651.693

    sigma^2 estimated as 2.43e+10:  log likelihood=-321.02
    AIC=646.04   AICc=646.61   BIC=648.39

그러나 acf(bal2sum3years.ts,max.lag=35)0.3보다 높은 acf 계수는 표시하지 않습니다. 그러나 데이터의 계절성은 매년 초에 급증합니다. 그래프에서 계열이 다음과 같이 나타납니다. 오리지널 시계열

fit=Arima(bal2sum3years.ts,seasonal=list(order=c(0,1,0),period=12),include.drift=TRUE)function forecast(fit)에 의해 호출 된 예측 은 다음 12 개월의 평균이 지난 12 개월의 데이터에 상수를 더한 것과 같습니다. 이것은을 호출하여 볼 수 있습니다 plot(forecast(fit)).

실제 및 예측 데이터

또한 자기 상관 관계는 아니지만 양의 평균 (0이 아님)을 갖는 잔차를 확인했습니다.

내 생각에 맞는 것은 원래 시계열을 정확하게 모델링하지 않습니다 (파란색 원래 시계열, 빨간색은 fitted(fit):

원본 대 맞춤

손님은, 모델이 맞지 않습니까? 뭔가 빠졌습니까? 모델을 개선하려면 어떻게해야합니까? 이 모델은 문자 그대로 지난 12 개월이 걸리고 다음 12 개월을 달성하기 위해 상수를 추가하는 것으로 보입니다.

나는 시계열 예측 모델 및 통계의 상대적 초보자입니다.


" 제 생각에 맞는 시계는 원래 시계열을 정확하게 모델링하지 않습니다. "
Glen_b-복지 주 모니카

@ Glen_b,이 의견은 줄거리를 볼 때 볼 수있는 차이점을 기반으로합니다. 예를 들어 회계 목적으로 매월 매출을 예측하려는 경우 오류가 심각 할 수 있습니다.
zima

" 내가 플롯을 볼 때 볼 수있는 차이점 "은 " 시계열을 정확하게 모델링하지 않는다 "는 또 다른 방법입니다 . 이것은 논쟁의 여지가 없습니다. 더 나은 예측에 대한 열망의 표현은 모든 예측자가 갖는 동일한 열망입니다. 많은 경우에 매우 중요 할 수 있습니다. 그럼에도 불구하고, 이러한 욕구는 더 많은 정보를 데이터에 넣지 않습니다. 모든 ARIMA 모델 (실제로이 작업과 관련된 시계열 모델)에는 0이 아닌 오류 항이 있습니다. 이 것입니다 항상 데이터와 맞춤 사이의 불일치합니다. 모델이 모델링 할 수있는 것을 놓쳤다 고 생각하게하는 것이 있습니까?
Glen_b-복지 주 모니카

방금 뭔가에 대해 생각했습니다. 아마도 ARIMA 모델은 웹 사이트의 사용자 활동-데이터의 특성을 고려하지 않아서 데이터를 반영하지 못할 수도 있습니다. 계절별뿐만 아니라 특별 이벤트, 프로모션 등 숫자에 영향을 미치는 다른 이벤트가있을 수 있습니다. ARIMA가 아닌 다른 예측 방법이나 기계 학습 기술과 관련된 더 복잡한 방법이 값을 더 잘 예측할 수 있습니다. 나는 그것을 조사 할 것이다.
zima

꽤 그럴듯하다. 그렇다면 잔차에서 이러한 실패를 식별 할 수 있어야합니다. ARIMA 모델과 구조적 시계열 모델 모두 회귀 항을 통해 특별 이벤트 및 프로모션과 같은 것을 통합 할 수 있습니다. 시계열 회귀 모델은 상당히 일반적입니다.
Glen_b-복지 주 모니카

답변:


9

계절별 차분 후 데이터의 모양에서 남은 계절성이 실질적으로 없을 수 있습니다. 매년 초에 그 정점에 도달하고 그해의 나머지 패턴 은 모델에 의해 잘 선택됩니다I[12] . 이 모델에는 "분명한 계절성" 이 포함되어 있습니다.

예, 실제로 제안 된 모델은 "이 6 월 = 지난 6 월 + 상수 + 오류"이며 다른 달도 마찬가지입니다.

정확히 뭐가 문제 야? 귀하의 데이터에 대한 훌륭한 설명 인 것 같습니다.

당신은 기반으로 아마도 뭔가 설명 할 시계열 분해 더 직관적이고 쉽게 찾을 수있는 기본 구조 모델 계절과 하나 - -하지만하지 않습니다 반드시 더 나은 것보다 기능은 당신이 가지고있는 모델을 의미한다. 여전히 표준 분해 기법 중 하나 이상을 시도해 볼 가치가 있습니다. 잘 이해 한 모델에 대해 언급해야 할 것이 많습니다.


1

우리의 문제는 전통적인 모델을 사용하지 않고 ARIMA 모델로 직접 점프하는 것입니다. 이러한 이유로 모델이 필요한 결과를 제공하지 않는 것을 알 수 있습니다. 귀하의 경우, 귀하의 데이터를 테스트 한 결과 12 개월마다 계절성이 있음을 알았지 만 간단한 이동 평균 3 용어 계절 조정 : 곱셈이 가장 좋은 모델이라는 것을 알았습니다. 제 생각에는 고급 기법으로 넘어 가기 전에 전통적인 예측 알고리즘을 시도해야합니다. 질문 데이터에 대한 12 개월 예측


1
제안하는 모델은 (3,0,0) (0,0,0) 형식의 ARIMA 모델입니다. 여기서 3 개의 계수는 .333, .333 및 .333 및 상수 0.0으로 하드 코딩합니다. 따라서 arima 모델의 형태를 가정 할뿐 아니라 계수의 값을 가정하고 계열에 특이 치가 없다고 가정합니다. 모델의 형태와 매개 변수의 최적 값 측면에서 데이터 자체를 말하도록하십시오 ... 당신은 잃을 것이 없으며 얻을 것이 많습니다. 실제로 모델이 정확하면 찾을 수 있습니다. 모든 arima 모델은 과거의 가중치 함수입니다.
IrishStat

1
stats.stackexchange.com/questions/40905/… 가중 모델링과 arima의 관계를 설명합니다. 이러한 방식으로 ARIMA 모델은 가중 합을 계산하기 위해 얼마나 많은 역사적 값을 사용해야하는지에 대한 답변으로 설명 할 수 있습니다. 과거? 정확하게 그 가치는 무엇입니까?
IrishStat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.