시계열을 예측하는 방법은 무엇입니까?


9

시계열 데이터 분석에 익숙하지 않습니다. 그러나 나는 생각할 간단한 예측 작업이라고 생각합니다.

일반적인 생성 프로세스에서 약 5 년간의 데이터가 있습니다. 매년 비선형 성분으로 단조 증가하는 함수를 나타냅니다. 매년 40 주 주기로 매주 계산합니다. 프로세스가 시작되고, 기능은 0에서 시작하고, 기능의 전반부에 비해 다소 빠르게 증가하며, 마지막 5 주 동안 레벨링하기 전에 하반기에 비해 느려집니다. 이 프로세스는 해마다 세그먼트 간 변경 률과 볼륨에 약간의 차이가있어 몇 년 동안 일관됩니다.

y1={0,Nt1,Nt2,...Nt39,Nt40}

y5={0,Nt1,Nt2,...Nt39,Nt40}

여기서 는 시간 x의 개수와 같습니다.Ntx

목표는 에서 (또는 더 나은 ~ 또는 그 지점까지의 기울기 )을 취하고 에서 을 예측하는 것 입니다. 예를 들어 이 5000 인 경우 해당 연도 의 예상 값 은 입니까 ? 문제는 그러한 데이터를 어떻게 모델링 할 것인가입니다. 요약하고 시각화하기가 쉽습니다. 그러나 나는 예측을 촉진하고 오류 척도를 통합하는 모델을 원합니다.Ntxt0txNt40Nt10Nt40


2
자신을 그렇게 심각하게 제한 하시겠습니까? 이 문제에 실제 적용이있는 경우 시간 x의 개수를 알 때까지 모든 이전 개수도 알 수 있습니다. 왜 예측에 도움이되지 않습니까?
whuber

과연. 당신은 맞습니다. 지적 해 주셔서 감사합니다.
Brett

답변:


6

Andy W가 제안한 것처럼 가장 간단한 방법은 계절별 일 변량 시계열 모델을 사용하는 것입니다. R을 사용하는 경우 auto.arima()또는 예측 패키지 중 하나에서 시도 ets()하십시오 .

정상적으로 작동해야하지만 일반적인 시계열 방법은 제공된 모든 정보를 사용하지 않습니다. 특히 매년 곡선의 모양을 알고있는 것 같습니다. 따라서 매년 데이터를 모델링하여 해당 정보를 사용하는 것이 좋습니다. 다음은이 정보를 통합하려는 제안입니다.

일종의 S 자형 곡선이 트릭을 수행하는 것처럼 들립니다. 예를 들어, 이동 된 물류 : 년을위한 및 주 , 및 매개 변수입니다 추정된다. 점근 최대이다 증가의 레이트를 제어 중간 지점 인 . ( 까지의 시간 이 이후의 속도보다 빠른 비대칭을 허용하려면 다른 매개 변수가 필요합니다.

ft,j=rteat(jbt)1+eat(jbt)
tjatbtrtrtatbtft,j=rt/2btbt. 이 작업을 수행하는 가장 간단한 방법은 수 있도록하는 것입니다 전 시간 이후에 다른 값을 취할 .)atbt

모수는 매년 최소 제곱을 사용하여 추정 할 수 있습니다. 매개 변수는 각각 시계열 ( , 및 합니다. 표준 시계열 방법을 사용하여 예측할 수 있지만 예측을 생성하기 위해 각 계열의 평균을 사용하는 것 외에 별 차이가 없습니다. 그런 다음 6 년 동안 주차의 추정치 는 단순히 이며 여기서 , 및 의 예측 이 사용됩니다.a1,,anb1,,bnr1,,rnn=5jf^(6,j)a6b6r6

6 년 동안 데이터가 관찰되기 시작하면이 추정치를 업데이트 할 수 있습니다. 각각의 새로운 관측치가 얻어지면 6 년차의 데이터에 대한 S 자 곡선을 추정합니다 (3 개의 매개 변수가 있으므로 시작하기 위해 적어도 3 개의 관측치가 필요함). 그런 다음 5 년까지의 데이터를 사용하여 얻은 예측과 6 년부터의 데이터만을 사용하여 얻은 예측의 가중 평균을 취합니다. 여기서 가중치는 각각 및 과 같습니다. . 그것은 매우 특별하며, 더 큰 확률 론적 모델의 맥락에 배치함으로써 더 객관적으로 만들 수 있다고 확신합니다. 그럼에도 불구하고 아마도 귀하의 목적에 맞게 작동 할 것입니다.(40t)/36(t4)/36


4

본질적으로 Box Jenkins ARIMA 모델링의 요구 사항은 무엇입니까 (연간주기는 계절 성분이라고합니다). 직접 자료를 검색하는 것 외에도 제안합니다.

R McCleary에 의해 1980 년 사회 과학을위한 응용 시계열 분석 ; RA 헤이; EE Meidinger; D 맥도 월

미래에 대해 더 많이 예측하고 (따라서 오류를 평가하려는) 합리적인 이유를 생각할 수는 있지만 실제로는 매우 어려운 경우가 많습니다. 계절 성분이 매우 강한 경우 더 적합합니다. 그렇지 않으면 추정치가 비교적 적은 미래 기간에 평형에 도달 할 수 있습니다.

R을 사용하여 모델에 맞출 계획이라면 Rob Hyndman의 웹 사이트를 확인해야 할 것입니다 .


-2

매년 5 년의 데이터와 40 개의 관측치가 있습니다. 웹에 게시하여 500 마일 높이에서 철학을 세우는 대신 그라운드 제로에서 실제로 답할 수있게 하시겠습니까? 나는 숫자를 기대합니다. 예를 들어 매주 공유하는 시간에 거래하는 고객의 수와 같은 데이터를 보았습니다. 매년 시리즈는 0에서 시작하여 한계 값까지 누적됩니다.


1
-1 도움이되는 답장보다는 자기 광고처럼 들립니다.
whuber

@ whuber : 의도적이지 않습니다. 내가 만난 비슷한 "끈적 끈적한 문제"에 대한 반성.
IrishStat

그렇다면 흥미로운 의견이 될 것입니다. 의견은이 소중한 경험을 주입 할 수있는 좋은 방법입니다. 답변은 질문에 대한 실제 답변을 위해 예약되어야합니다. 투표, 투표, 검색 가능 등으로 인해보다 직접적인 관련성, 영구적 인 가치가 있어야하며 비판을보다 잘 견뎌 낼 수 있어야합니다. (물론 이것은 이상화이지만, 우리가 추구하는 것입니다. :-)
whuber

@ whuber : 당신은 가르쳐! 나는 배운다! "의견 영역"에 대한 의견을 예약합니다. 다시 한 번 말하지만, 마을의 다른 사람들과 경험을 공유하려는 의도가 기꺼이 의도 된 바는 전혀 없었습니다. OP가 내 의견이 도움이되었다고 생각했음을 확신합니다. 브렛 뭐라고?
IrishStat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.