매일 시계열에 ARIMA 모델을 장착하고 있습니다. 데이터는 매일 2010 년 2 월 1 일부터 2011 년 7 월 30 일까지 수집되며 신문 판매에 관한 것입니다. 매주 판매 패턴이 발견 될 수 있기 때문에 (매일 평균 판매량은 월요일에서 금요일까지 동일하다가 토요일과 일요일에 증가합니다)이 "계절성"을 파악하려고합니다. 판매 데이터 "데이터"가 주어지면 다음과 같이 시계열을 만듭니다.
salests<-ts(data,start=c(2010,1),frequency=365)
그런 다음 auto.arima (.) 함수를 사용하여 AIC 기준을 통해 최상의 ARIMA 모델을 선택합니다. 결과는 항상 계절이 아닌 ARIMA 모델이지만 다음 구문을 예로 사용하여 SARIMAs 모델을 시도하면
sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7))
더 나은 결과를 얻을 수 있습니다. ts 명령 / arima 사양에 문제가 있습니까? 매주 패턴이 매우 강해서 캡처하는 데 많은 어려움을 겪지 않을 것입니다. 어떤 도움이라도 매우 유용합니다. Giulia Deppieri 감사합니다
최신 정보:
나는 이미 몇 가지 주장을 바꿨다. 더 정확하게 말하면이 절차는 ARIMA (4,1,3)를 내가 설정할 때 최고의 모델로 선택 D=7
하지만 AIC 및 기타 적합한 지수 및 예측도 개선되지 않습니다). 계절 성과주기의 혼동으로 인한 실수가 있다고 생각합니다 ..?!
Auto.arima 호출 사용 및 출력 획득 :
modArima<-auto.arima(salests,D=7,max.P = 5, max.Q = 5)
ARIMA(2,1,2) with drift : 1e+20
ARIMA(0,1,0) with drift : 5265.543
ARIMA(1,1,0) with drift : 5182.772
ARIMA(0,1,1) with drift : 1e+20
ARIMA(2,1,0) with drift : 5137.279
ARIMA(2,1,1) with drift : 1e+20
ARIMA(3,1,1) with drift : 1e+20
ARIMA(2,1,0) : 5135.382
ARIMA(1,1,0) : 5180.817
ARIMA(3,1,0) : 5117.714
ARIMA(3,1,1) : 1e+20
ARIMA(4,1,1) : 5045.236
ARIMA(4,1,1) with drift : 5040.53
ARIMA(5,1,1) with drift : 1e+20
ARIMA(4,1,0) with drift : 5112.614
ARIMA(4,1,2) with drift : 4953.417
ARIMA(5,1,3) with drift : 1e+20
ARIMA(4,1,2) : 4960.516
ARIMA(3,1,2) with drift : 1e+20
ARIMA(5,1,2) with drift : 1e+20
ARIMA(4,1,3) with drift : 4868.669
ARIMA(5,1,4) with drift : 1e+20
ARIMA(4,1,3) : 4870.92
ARIMA(3,1,3) with drift : 1e+20
ARIMA(4,1,4) with drift : 4874.095
Best model: ARIMA(4,1,3) with drift
따라서 arima 함수를 다음과 같이 사용해야한다고 가정합니다.
bestOrder <- cbind(modArima$arma[1],modArima$arma[5],modArima$arma[2])
sarima1<-arima(salests, order = c(4,1,3))
계절 구성 요소 매개 변수 및 기간 스펙이 없습니다. 데이터 및 탐색 분석에 따르면 2010 년 8 월 (일관된 판매 증가가 등록 된 경우)을 제외하고는 매주 동일한 주간 패턴을 대략적으로 고려할 수있는 것으로 나타났습니다. 불행히도 나는 시계열 모델링에 대한 전문 지식이 전혀 없으며, 실제로 이러한 문제가있는 데이터에 적합하려고 시도한 다른 파라 메트릭 전자 비모수 모델에 대한 대안 솔루션을 찾기 위해이 접근법을 시도하고 있습니다. 나는 많은 종속적 인 숫자 변수를 가지고 있지만 응답 변수를 설명하는 데 전력이 부족하다는 것을 알았습니다. 의심 할 여지없이 모델링하기 가장 어려운 부분은 시간 구성 요소입니다. 또한, 월과 주중을 나타내는 더미 변수의 구성은 강력한 솔루션이 아닌 것으로 밝혀졌습니다.