3 개월 분량의 데이터 (매일에 해당하는 각 행)가 생성되었으며 동일한 것에 대해 다변량 시계열 분석을 수행하려고합니다.
사용 가능한 열은-
Date Capacity_booked Total_Bookings Total_Searches %Variation
각 날짜에는 데이터 세트에 1 개의 항목이 있고 3 개월의 데이터가 있으며 다변량 시계열 모델을 사용하여 다른 변수도 예측하려고합니다.
지금까지 이것은 나의 시도였으며 기사를 읽음으로써 같은 것을 이루려고 노력했습니다.
나는 똑같이했다-
df['Date'] = pd.to_datetime(Date , format = '%d/%m/%Y')
data = df.drop(['Date'], axis=1)
data.index = df.Date
from statsmodels.tsa.vector_ar.vecm import coint_johansen
johan_test_temp = data
coint_johansen(johan_test_temp,-1,1).eig
#creating the train and validation set
train = data[:int(0.8*(len(data)))]
valid = data[int(0.8*(len(data))):]
freq=train.index.inferred_freq
from statsmodels.tsa.vector_ar.var_model import VAR
model = VAR(endog=train,freq=train.index.inferred_freq)
model_fit = model.fit()
# make prediction on validation
prediction = model_fit.forecast(model_fit.data, steps=len(valid))
cols = data.columns
pred = pd.DataFrame(index=range(0,len(prediction)),columns=[cols])
for j in range(0,4):
for i in range(0, len(prediction)):
pred.iloc[i][j] = prediction[i][j]
유효성 검사 세트와 예측 세트가 있습니다. 그러나 예측은 예상보다 훨씬 나쁩니다.
내가 받고있는 출력은-
예측 데이터 프레임-
유효성 검사 데이터 프레임-
보시다시피 예측은 예상과는 거리가 멀다는 것을 알 수 있습니다. 누구나 정확성을 향상시킬 수있는 방법을 조언 해 줄 수 있습니까? 또한 모델을 전체 데이터에 맞추고 예측을 인쇄하면 새 달이 시작되었다는 것을 고려하지 않으므로 예측합니다. 여기에 어떻게 통합 할 수 있습니까? 도움을 주시면 감사하겠습니다.
편집하다
데이터 세트에 연결- 데이터 세트
감사