짧은 시계열을위한 최상의 방법


35

짧은 시계열 모델링과 관련하여 질문이 있습니다. 그것들을 모델링 해야하는지에 대한 질문은 아니지만 어떻게 해야 합니까? 짧은 시계열 모델링 (길이 )에 어떤 방법을 추천 하시겠습니까? "최고"라는 말은 여기서 가장 강력한 것을 의미합니다. 즉, 제한된 수의 관측 사실로 인해 오류가 발생하기 쉽습니다. 일련의 짧은 단일 관측치가 예측에 영향을 줄 수 있으므로이 방법은 예측에 연결된 오류 및 가능한 변동성을 신중하게 추정해야합니다. 나는 일반적으로 일 변량 시계열에 관심이 있지만 다른 방법에 대해서도 아는 것도 흥미로울 것입니다.T20


시간 단위는 무엇입니까? 데이터를 게시 할 수 있습니까?
Dimitriy V. Masterov 2016

8
계절성, 문 구성 및 & c와 관련하여 가정 한 내용 -짧은 시계열은 가장 중대한 위반 만 감지 할 수있는 기회를 제공합니다. 따라서 도메인 지식에 대한 가정이 잘 확립되어 있어야합니다. 모델링하거나 예측해야합니까? M3 공모전은 다양한 "자동"예측 방법을 다양한 영역에서
연속적

5
@Scortchi의 의견에 +1. 또한 3,003 M3 시리즈 ( McompR 패키지 에서 사용 가능 ) 중에서 504 개는 20 개 이하의 관측치, 특히 연간 시리즈의 55 %를 갖습니다. 따라서 원본 간행물을 찾아서 연간 데이터에 적합한 것이 무엇인지 확인할 수 있습니다. 또는 M3 대회에 제출 된 원래 예측을 Mcomp패키지 로 확인할 수도 있습니다 (목록 M3Forecast).
S. Kolassa-복직 모니카

안녕하세요, 나는 대답에 아무것도 추가하지 않을 것입니다. 다른 사람들이 여기서 문제를 이해하는 데 도움이 될 수있는 질문에 대해 공유하십시오. 강력한 말을 할 때 , 그것은 제한된 사실로 인해 오류가 발생하기 가장 쉽습니다 관측치 수 . 나는 견고성이 통계에서 중요한 개념이라고 생각합니다. 여기에 모델링에 맞는 데이터가 거의 없기 때문에 모델 자체 또는 특이 치의 가정에 크게 의존하기 때문에 결정적인 요소입니다. 견고성을 사용하면 이러한 제한을 덜 강하게하여 결과를 제한하는 가정을 허용하지 않습니다. 이게 도움이 되길 바란다.
Tommaso Guerrini

2
@TommasoGuerrini 강력한 방법은 가정을 적게하지 않고 가정을 다르게합니다.
Tim

답변:


31

그것은이다 매우 더 복잡한 방법을 능가하는 "역사적 평균을 예측"와 같은 매우 간단한 예측 방법에 대한 일반적인. 이것은 짧은 시계열 일 가능성이 높습니다. 예, 원칙적으로 ARIMA 또는 훨씬 더 복잡한 모델을 20 개 이하의 관측치에 맞출 수는 있지만 과도하게 적합하고 매우 나쁜 예측을 얻을 수 있습니다.

예를 들어 간단한 벤치 마크로 시작하십시오.

  • 역사적 평균
  • 추가 견고성을위한 역사적 중앙값
  • 랜덤 워크 (마지막 관측치 예측)

샘플 외부 데이터에서이를 평가하십시오. 더 복잡한 모델을이 벤치 마크와 비교하십시오. 이러한 간단한 방법을 능가하는 것이 얼마나 어려운지 알고 놀랄 것입니다. 또한, 예를 들어, 원하는 오차 측정 값을 사용하여 샘플의 평균 정확도를 측정 할뿐만 아니라 오차 분산을 평가함으로써 다양한 방법의 견고성을 이러한 간단한 방법과 비교해 보십시오 .

예, Rob HyndmanAleksandr이 링크하는 게시물에 글썼을 , 샘플 외부 테스트는 그 자체로 문제가 있지만 짧은 대안은 없습니다. ( 예제 정확도에 대한 지침이 아닌 샘플 내 적합을 사용 하지 마십시오 .) AIC는 중간 및 임의 보행에 도움이되지 않습니다. 그러나 AIC가 근사한 시계열 교차 유효성 검사를 사용할 있습니다 .


답을 찾았습니다 (+1). 관심이 있고 명확하게 설명 할 수 있도록 다른 의견을 제시했습니다.
Aleksandr Blekh

17

다시 질문을 시계열 에 대해 더 많이 배울 수있는 기회로 사용하고 있습니다. 관심있는 (많은) 주제 중 하나입니다. 짧은 연구 후에 짧은 시계열 모델링 문제에 대한 몇 가지 접근 방식이있는 것으로 보입니다.

첫 번째 방법은 표준 / 선형 시계열 모델 (AR, MA, ARMA 등)을 사용하는 것이지만 이 글 [1]에 설명 된 Rob Hyndman의 설명에 따라 특정 매개 변수에주의를 기울이는 것이 좋습니다. 시계열 및 예측 세계. 내가 본 대부분의 관련 문헌에 의해 언급 된 두 번째 접근법은 비선형 시계열 모델 , 특히 임계치 자동 회귀 모델 (TAR) 을 포함 하는 임계치 모델 [2] , 자체 종료 TAR ( SETAR) , 임계 값 자동 회귀 이동 평균 모델 (TARMA)TARMAX 모델 ( TAR 을 확장 함)외인 시계열 모델. 임계 값 모델을 포함한 비선형 시계열 모델에 대한 우수한 개요이 백서 [3] 와이 백서 [4] 에서 찾을 수 있습니다 .

마지막으로, 다른 IMHO 관련 논문 [5]에 기초 흥미로운 접근 설명 테라 - 위너 비선형 시스템의 표현 - 참조 [6] [7]. 이 접근법은 짧고 시끄러운 시계열 의 맥락에서 다른 기술보다 우수하다고 주장된다 .

참고 문헌

  1. Hyndman, R. (2014 년 3 월 4 일). 짧은 시계열에 모델 맞추기. [블로그 게시물]. http://robjhyndman.com/hyndsight/short-time-series 에서 검색
  2. 펜실베이니아 주립대 학교. (2015). 임계 값 모델. [온라인 강좌 자료]. STAT 510, 응용 시계열 분석. https://onlinecourses.science.psu.edu/stat510/node/82 에서 검색 함
  3. 지 보트,이. (2006). 비선형 시계열 모델. [클래스 노트]. ECON 584, 시계열 계량기. 워싱턴 대학. http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf 에서 검색 함
  4. Chen, CWS, So, MKP 및 Liu, F.-C. (2011). 재무에서 임계 값 시계열 모델을 검토합니다. 통계 및 인터페이스, 4 , 167–181. http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf 에서 검색
  5. Barahona, M., & Poon, C.-S. (1996). 짧고 시끄러운 시계열의 비선형 역학 감지. 자연, 381 , 215-217. http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF 에서 검색
  6. 프란츠, 미주리 (2011). Volterra and Wiener 시리즈. Scholarpedia, 6 (10) : 11307. http://www.scholarpedia.org/article/Volterra_and_Wiener_series 에서 검색
  7. Franz, MO, & Scholkopf, B. (nd). 위너와 볼 테라 이론과 다항식 커널 회귀에 대한 통일 된 견해. http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf 에서 검색

4
+1 답에이 논문들에 대한 참고 문헌을 작성해 주시겠습니까? 우리는 최근에 논문에 대한 많은 링크가 썩어 부패한 것으로 밝혀졌으며, 논문에 저자 나 제목 등이 언급되지 않는 한 거의 쓸모가 없게되었습니다.
whuber

2
@ whuber : 감사합니다. 전혀 문제 없습니다. 오늘 저녁에 참고로 답변을 업데이트하겠습니다.
Aleksandr Blekh

2
Rob Hyndman의 게시물 링크에 +1 (그러나, 나는이 복잡한 모델에 -1 유혹하고있다. 나는 것 매우 임계 값 이하 20 개 관찰의 시간이 시리즈의 다른 비선형 시계열 방법을 사용하여 조심. 당신은 이동하는 overfit 거의 확실 직접 카운터 – OP.의 강력한 방법 에 대한 요구 사항 .)
S. Kolassa-복원 Monica Monica

3
[2,3,4]는 짧은 시계열을 언급하지 않고 [2] :> 120 관측치의 도표를보십시오. [4] 금융에 집중하며, 여기서 20 개 이상의 관측치가 있습니다. [5]는 "단시간 시계열, 일반적으로 1,000 포인트 길이"에 대해 씁니다 (216 페이지). <20 개의 관측치로 TAR 또는 유사한 모델 또는 연결하는 더 복잡한 모델을 확실하고 강력하게 맞출 수있는 방법이 없습니다. (BTW : 또한 측면에서 일부 추론 통계를 수행하며, 관측치가 20 개 미만이면 실제로 평균과 하나 이상의 매개 변수보다 더 많은 것을 추정 할 수 없습니다.)
S. Kolassa-Reinstate Monica

5
당신은 환영합니다 ;-) 테이크 아웃은 "짧은"이 매우 상황에 따라 다르다는 것을 추측합니다. 센서 읽기 시리즈 또는 재무의 경우 1000 데이터 포인트는 "짧습니다"-공급망 관리에서는 월간 20 회의 관찰이 거의 정상입니다 "short"는 12 개 이하의 관측치에서만 시작합니다.
S. Kolassa-복 직원 모니카

11

아니요, 계열 의 짧은 시계열에 대해서는 최상의 일 변량 외삽 법 이 없습니다 . 외삽 법에는 많은 양의 데이터가 필요합니다.T20

다음의 질적 방법은 데이터가 매우 짧거나 전혀없는 경우 실제로 잘 작동합니다.

  • 종합 예측
  • 설문 조사
  • 델파이 방법
  • 시나리오 구축
  • 유추에 의해 예측
  • 경영진 의견

내가 가장 잘 작동하는 가장 좋은 방법 중 하나는 예측하려는 범주에서 유사 / 아날로그 제품을 찾고 단기 예측을 예측 하는 데 사용하는 구조적 유추 (위의 목록에서 5 번째)를 사용하는 것입니다. . 예제는 이 기사 를 참조 하고 물론 SAS를 사용하여이를 수행하는 "방법"에 대한 SAS 백서 . 한 가지 제한은 유추에 의한 예측은 단지 당신이 좋은 유추가있을 때만 작동한다는 것입니다. 그렇지 않으면 판단 예측에 의존 할 수 있습니다. 다음은 Forecastpro와 같은 도구를 사용하여 유추하여 예측하는 방법에 대한 Forecastpro 소프트웨어의 다른 비디오 입니다. 유추를 선택하는 것은 과학보다 더 예술적이며 유사한 제품 / 상황을 선택하려면 도메인 전문 지식이 필요합니다.

짧거나 새로운 제품 예측을위한 두 가지 훌륭한 리소스 :

  • 암스트롱 예측의 원리
  • 칸의 신제품 예측

다음은 설명을위한 것입니다. 방금 Signal and Noise를 읽었습니다.네이트 실버 (Nate Silver)는 미국과 일본 (아날로그 대 미국 시장) 주택 시장 거품과 예측에 대해 좋은 예가 있다고 언급했다. 아래 차트에서 10 개의 데이터 포인트에서 멈추고 외삽 방법 (지수 스무딩 / 세트 / 아리마 ...) 중 하나를 사용하고 그것이 어디로 향하는 지 그리고 실제로 끝난 곳을보십시오. 다시 제시 한 예는 단순한 추세 외삽보다 훨씬 더 복잡합니다. 이는 제한된 데이터 포인트를 사용하여 추세 외삽의 위험을 강조하기위한 것입니다. 또한 제품에 계절 패턴이있는 경우 예측을 위해 유사한 형태의 제품 상황을 사용해야합니다. 나는 Journal of Business 리서치에서 약 13 주간 의약품을 판매 할 경우 유사한 제품을 사용하여 더 정확하게 데이터를 예측할 수 있다고 생각하는 기사를 읽었습니다.

여기에 이미지 설명을 입력하십시오


다른 접근법을 지적 해 주셔서 감사합니다! 그리고 Nate Silvers의 책은 훌륭합니다.
Tim

5

관측치의 수가 중요하다는 가정은 모델을 식별하기위한 최소 샘플 크기에 관한 GEP Box의 의견에 의한 것입니다. 내가 우려하는 한 더 미묘한 대답은 모델 식별의 문제 / 품질이 단지 샘플 크기가 아니라 데이터에있는 신호 대 잡음의 비율에 기반한다는 것입니다. 신호 대 잡음비가 강한 경우 관측 값이 적습니다. s / n이 낮 으면 식별 할 샘플이 더 필요합니다. 데이터 세트가 월 단위이고 값이 20 개인 경우 계절 모델을 경험적으로 식별 할 수 없지만 데이터가 계절적이라고 생각되면 ar ​​(12)를 지정하여 모델링 프로세스를 시작한 다음 모델 진단을 수행 할 수 있습니다 ( 구조적으로 결함이있는 모델을 줄이거 나 늘리기위한 중요성 테스트)


5

데이터가 매우 제한되어 있기 때문에 베이지안 기법을 사용하여 데이터를 맞추는 경향이 더 큽니다.

베이지안 시계열 모델을 다룰 때 고정 성은 약간 까다로울 수 있습니다. 한 가지 선택은 매개 변수에 대한 제한 조건을 적용하는 것입니다. 아니면 할 수 없었습니다. 매개 변수의 분포를보고 싶을 때 좋습니다. 그러나 사후 예측을 생성하려면 폭발 할 예측이 많이있을 수 있습니다.

Stan 문서는 정상 성을 보장하기 위해 시계열 모델의 매개 변수를 제한하는 몇 가지 예를 제공합니다. 이는 비교적 간단한 모델에서 사용할 수 있지만보다 복잡한 시계열 모델에서는 거의 불가능합니다. 정상 성을 유지하려면 Metropolis-Hastings 알고리즘을 사용하여 부적절한 계수를 버리십시오. 그러나이를 위해서는 많은 고유 값을 계산해야하므로 속도가 느려집니다.


0

현명하게 지적한 문제는 고정 된 목록 기반 절차로 인한 "과적 합"입니다. 현명한 방법은 무시할만한 양의 데이터가있을 때 방정식을 단순하게 유지하는 것입니다. 나는 많은 달 후에 AR (1) 모델을 사용하고 데이터에 대한 적응 속도 (아르 계수)를 그대로두면 합리적으로 잘 작동 할 수 있음을 발견했습니다. 예를 들어, 추정 된 ar 계수가 0에 가까우면 전체 평균이 적절하다는 것을 의미합니다. 계수가 +1.0에 가까우면 이는 마지막 값 (상수에 대해 조정 된 것이 더 적합 함)을 의미합니다. 계수가 -1.0에 가까우면 마지막 값의 음수 (상수에 대해 조정 됨)가 가장 잘 예측됩니다. 계수가 그렇지 않으면 최근 과거의 가중 평균이 적절 함을 의미합니다.

이것은 정확하게 AUTOBOX로 시작한 다음 "작은 수의 관측치"가 발생할 때 추정 된 매개 변수를 미세 조정하므로 이상을 버립니다.

이는 순수한 데이터 중심 접근 방식이 적용되지 않을 때 "예측 기술"의 예입니다.

다음은 이상에 대한 우려없이 12 개의 데이터 포인트를 위해 개발 된 자동 모델입니다. 여기에 이미지 설명을 입력하십시오여기에 실제 / 적합 및 예측이 여기에 이미지 설명을 입력하십시오있고 여기 에 잔차 플롯이 있습니다.여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.