앙상블 시계열 모델


13

시계열 예측을 자동화해야하며 해당 계열의 기능 (계절, 추세, 노이즈 등)을 미리 알지 못합니다.

내 목표는 각 시리즈에 가장 적합한 모델을 얻는 것이 아니라 매우 나쁜 모델을 피하는 것입니다. 다시 말해, 매번 작은 오류를 얻는 것은 문제가되지 않지만 가끔 큰 오류를 얻는 것은 문제가됩니다.

다른 기법으로 계산 된 모델을 결합하여이를 달성 할 수 있다고 생각했습니다.

즉, ARIMA가 특정 시리즈에 가장 적합한 방법이지만 다른 시리즈에 가장 적합하지 않을 수도 있습니다. 지수 평활에 대해서도 동일합니다.

그러나 각 기법에서 하나의 모델을 결합하면 한 모델이 좋지 않더라도 다른 모델은 추정치를 실제 값에 더 가깝게 만듭니다.

ARIMA는 장기적으로 잘 작동하는 시리즈에서 더 잘 작동하는 반면 지수 평활은 단기적으로 노이즈가 많은 시리즈에서 두드러집니다.

  • 내 생각은보다 강력한 예측을 얻기 위해 두 기술에서 생성 된 모델을 결합하는 것입니다.

이러한 모델을 결합하는 방법에는 여러 가지가있을 수 있습니다.

  • 이것이 좋은 접근 방법이라면 어떻게 결합해야합니까?

간단한 예측 평균은 옵션이지만 모델의 양호도에 따라 평균에 가중치를 부여하면 더 나은 예측을 얻을 수 있습니다.

  • 모형을 결합 할 때 분산 처리는 무엇입니까?

귀하의 아이디어는 훌륭하지만 자동으로 맞는 ARIMA 모델을 사용하는 것에 대해서는 확신이 없습니다 . 일 변량 계열의 경우 아마도 ... 기존의 지혜는 Holt-Winters가 자동으로 강력하게 사용되므로 방법 간의 샘플 간 비교 기준이 될 수 있다는 것입니다.
Scortchi-Monica Monica 복원

@Scortchi 나는 모든 시리즈가 단 변량이라는 것을 언급하지 않았다! ;) Holt-Winters가 자동으로 사용될 때 실제로 성능이 뛰어나다는 데 동의하지만 예측이 좋지 않은 경우를 피하기 위해 다른 모델에서 한 번 더 의견을 얻고 자합니다. 때때로 HW는 이상한 경향을 보입니다.
João Daniel

1
일 변량의 경우조차도 자동 절차를 상상하기 위해 고심합니다. 트렌드 (결정 론적 또는 결정 론적), 가능한 변형, 계절성 (곱셈 또는 덧셈)이 있고 모델에 도달하려면 많은 사전 지식을 사용합니다. 현실에서 특정 시리즈가 무엇을 의미하는지에 대해 아직도, 푸딩의 증거는 먹는 것입니다-나는 단지 간단한 기술로 샘플 밖 비교를하는 것을 잊지 말고 싶었습니다. 그래서 행운을 빕니다.
Scortchi-Monica Monica 복원

답변:


15

예측을 결합하는 것은 훌륭한 아이디어입니다. (이것이 학술 예측 자들이 동의하는 몇 안되는 것 중 하나라고 말하는 것은 과장된 것이 아니라고 생각합니다.)

나는 가중치 예측에 대한 다른 방법을 다시 보면서 논문을 작성했습니다. http://www.sciencedirect.com/science/article/pii/S0169207010001032 기본적으로 (Akaike) 가중치를 사용하면 조합이 지속적으로 향상되지 않았습니다 단순하거나 손질 된 / 윈저 화 된 수단 또는 중간 값에 비해, 나는 개인적으로 두 번 생각할 것입니다. 복잡한 절차를 수행하기 전에 확실한 이점을 얻지 못할 수도 있습니다 (정보 기준에 따라 선택 단일 방법을 지속적으로 능가한다는 점을 상기하십시오). 이것은 물론 특정 시계열에 따라 달라질 수 있습니다.

위의 논문에서 예측 간격을 결합하는 것을 보았지만 분산을 결합하는 것은 아닙니다. 나는 이 주제 에 대해 IJF에 오래 전의 논문을 회상하고있는 것 같습니다. 따라서 IJF역호 를 통해 "조합"또는 "조합"을 검색하고 싶을 수도 있습니다.

예측을 결합 살펴 보았다 몇 가지 다른 논문은 여기에 (1989 년부터,하지만 리뷰)여기여기 (또한 밀도에서 보이는)여기여기에. 이들 중 다수는 왜 예측 조합이 단일 선택된 모델보다 자주 성능을 능가하는지 여전히 잘 이해하지 못한다고 지적합니다. 마지막 두 번째 논문은 M3 예측 경쟁에 관한 것입니다. 그들의 주요 발견 중 하나는 "다양한 방법의 조합 정확도는 평균적으로 특정 방법이 결합되어 다른 방법과 비교하여 성능이 뛰어나며"라는 것이었다. 마지막 백서에서는 조합이 단일 모델보다 더 나은 성능을 발휘할 필요는 없지만 치명적인 오류 (목표 중 하나)의 위험을 상당히 줄일 수 있음을 발견했습니다. 더 많은 문학은에서 쉽게 찾을 수 있어야 예측의 국제 저널예측의 저널 계량 경제학 또는 공급망 문헌에서보다 구체적으로 적용 할 수 있습니다.


1
모델 결합에 대한 훌륭한 관점! 당신의 대답은 매우 건설적이었습니다!
João Daniel

@Stephan Kolassa, Burg의 방법에서와 같이 앞으로 및 뒤로 예측자를 결합하는 것에 대한 의견이 있습니까?
데니스

@denis : 전진 또는 후진 예측 변수에 익숙하지 않거나 Burg의 방법에 익숙하지 않습니다. 미안하지만 예측 / 예측 (일명 앙상블 방법)을 결합하는 것이 일반적으로 유익하다고 가정합니다.
Stephan Kolassa

안녕 스테판, 좋은 기사. 저널 사이트가 변경된 것으로 보이며 더 이상 기본 사이트에서 R 코드를 다운로드 할 수 없습니다. 현재 다른 사이트에서 호스팅하고 있습니까?
Ian

@Ian : 구독하지 않으면 액세스 할 수 없습니다. 나에게 이메일을 보내십시오 ( 여기에서 내 주소를 찾으십시오 ), 나는 스크립트를 보낼 것입니다. 그들을 파헤칠 며칠을 줘.
Stephan Kolassa

1

왜 더 지정하지 않습니까? 나는 당신이 생산할 모델이 특정 선택보다 더 좋거나 좋을 것이라고 생각하지 않습니다.

그렇기 때문에 테스트 할 수있는 범위로 선택 범위를 좁힐 수 있고 데이터 입력을 표준화 할 수 있다면 R에서 자동 테스트 절차를 작성하지 않는 이유는 무엇입니까?

데이터가 5 개의 모델과 1 개의 "대체"로 추정되는 범위 내에 속한다고 결정했다고 가정 해보십시오. 다른 테스트로 입력을 특성화 할 수 있다고 가정하십시오. 그런 다음 계속 진행하여 R (또는 이와 유사한 프로그램) 알고리즘을 작성하십시오. 테스트 데이터를 기반으로 실행할 모델의 플로우 차트를 작성할 수있는 경우 (즉 의사 결정 트리의 포인트가 2 진인 경우)에 작동합니다.

결정이 이진이 아니기 때문에 이것이 옵션이 아닌 경우 적용 가능한 테스트를 기반으로 등급 시스템을 구현하고 그리드를 통해 일부 "극단적 사례"시뮬레이션 데이터를 실행하여 결과가 원하는 결과인지 확인하는 것이 좋습니다.

예를 들어, 정상이 아닌 테스트는 예-아니오로 정의 될 수 있지만 다른 속성은 다중 공선 성과 같은 범위에 속할 수 있습니다.
먼저 종이에이 그림을 그린 다음 구축하고 알려진 분포로 시뮬레이션 할 수 있습니다.

그런 다음 새로운 데이터가 도착할 때마다 R 프로그램을 실행하십시오. 여러 모델을 현재 보유하고있는 계산 기능과 결합 할 필요가 없습니다.


데이터가 계절에 따라 비 계절적 방법을 사용하지 않는 것과 같이 선택 범위를 좁히는 것이 좋습니다. 그러나 그때까지도 여러 계절 모델의 평균 (추세 등이 있거나없는 가산 계절) 을 평균 하면 예측 정확도가 평균적으로 향상 될 것이라고 주장합니다 . 적어도 그것은 예측 커뮤니티뿐만 아니라 M3 및 유사한 예측 경쟁에 상당히 노출되어 얻은 인상입니다.
Stephan Kolassa

이것에 대한 추가 논문이 있습니까? 나는 이것이 간단하면서도 관련된 연구 주제가 될 것을 의미합니다. 매우 흥미로운 아이디어이지만 직관적으로 모델의 동적 그리드보다 반드시 나을 것이라고는 동의하지 않습니다.
IMA

좋은 지적. 더 많은 문헌 포인터와 함께 추가 단락을 포함하도록 답변을 편집했습니다. 나는 이것이 간단하고 적절하다는 데 동의하며, 예측 평균화가 일반적으로 정확도를 향상시키는 이유는 여전히 잘 이해되지 않습니다.
Stephan Kolassa

네, 모든 종류의 분포 문제를 모델링하고 계산적으로 그리고 근본적으로 공격 할 수 있습니다. 매우 흥미로운 논문에 감사드립니다.
IMA

0

두 가지 예측 방법을 결합하기위한 훌륭하고 간단한 공식이 있습니다. 첫 번째와 a를 곱하고 (1-a)를 곱하면 가중치가 적용됩니다. 여기서 a는이 결합 된 예측의 분산을 최소화하여 발견됩니다. 두 예측 방법의 오류를 알고 있으므로 조합의 오류는 "a"에 따라 달라질 수 있습니다. 각 방법의 평균이 0 인 경우 계산이 간단합니다. 2 개 이상의 방법을 결합하는 경우 수식을 분석적으로 "수동으로"계산하거나 EXCEL의 Solver 옵션을 사용할 수 있다는 의미에서 "단순"합니다.


이 방법을 참조 할 수 있습니까?
horaceT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.