외부 변수가있는 예측 시계열 데이터


10

현재 시계열 데이터 (매월 데이터)를 예측하는 프로젝트를 진행하고 있습니다. R을 사용하여 예측을 수행하고 있습니다. 1 개의 종속 변수 (y)와 3 개의 독립 변수 (x1, x2, x3)가 있습니다. y 변수에는 73 개의 관측치가 있으며 다른 3 개의 변수도 있습니다 (alos 73). 2009 년 1 월부터 2015 년 1 월까지 상관 관계와 p- 값을 확인했으며 모델에 적용하는 것이 중요합니다. 내 질문은 : 모든 독립 변수를 사용하여 어떻게 좋은 예측을 할 수 있습니까? 이 변수에 대한 미래 값이 없습니다. 2 년 동안 (2017 년) 내 y 변수가 무엇인지 예측하고 싶다고 가정 해 봅시다. 어떻게해야합니까?

다음 코드를 시도했습니다.

    model = arima(y, order(0,2,0), xreg = externaldata) 

이 코드로 2 년 동안 y 값을 예측할 수 있습니까?

또한 회귀 코드를 시도했습니다.

    reg = lm(y ~ x1 + x2 + x3) 

그러나이 코드에서 어떻게 시간을 소비합니까? 내 y 값이 어떻게 초과 될지 어떻게 예측할 수 있습니까? 통계 및 예측이 처음입니다. 지연 값에 대해 약간의 읽기 및 캠을 수행했지만 모델에서 지연 값을 사용하여 예측을 수행하려면 어떻게해야합니까?

실제로 내 전반적인 질문은 미래 가치가없는 외부 변수로 시계열 데이터를 어떻게 예측할 수 있습니까?


시계열 데이터에는 회귀를 사용하지 마십시오. 전달 함수 모델 접근법을 사용하십시오.
Tom Reilly

2
안녕하세요, 전달 함수 모델에 대해 더 말씀해 주시겠습니까? 왜 시계열 데이터에 회귀를 사용해서는 안됩니까? 대부분의 연구는 시계열과 함께 회귀 사용을 제안합니다.
SB

전달 함수 모델은 10 장의 Box-Jenkins 교재에 설명되어 있습니다. 목표는 각 원인 (미백)에 대한 모델을 작성한 다음 잔차를 사용하여 Y (교차 상관)에 대한 상관 관계를 찾는 것입니다. 이를 통해 어떤 변수가 중요하고 리드 또는 지연 관계가 있는지 식별 할 수 있습니다. 이 방정식에는 ARIMA가 필요하거나 X 변수에는 분모가 필요할 수 있습니다. 특이 치, 경향, 수준, 계절성, 모수 및 분산의 변화가있을 수도 있습니다.
Tom Reilly

회귀는 시간이 중요하지 않다고 가정 할 수도 있습니다. Galton은 회귀를 사용하여 시계열 문제가 아니라 땀 완두콩을 연구했습니다. 전송 함수는 프로세스의 일부를 사용하여 문제점을 추정합니다.
Tom Reilly

답변:


11

외부 변수를 사용하여 모형을 적합시키고이 모형에서 예측하려면 외부 변수의 향후 값 (일반 및 단순)이 필요합니다. 이 문제를 해결할 방법이 없습니다.

설명 변수를 예측하는 방법에는 여러 가지가 있습니다. 마지막 관측치 ( "순수한 랜덤 보행"예측) 또는 전체 평균을 사용할 수 있습니다. 이 값이 유용한 값 (예를 들어, 과거에 재난이 예상되지 않은 지진과 같은 특별한 이벤트) 인 경우 간단히 0으로 설정할 수 있습니다. 또는을 사용하여 시계열 모델을 이러한 설명 변수 자체에 적합하게 예측할 수 auto.arima있습니다.

대안은 모델을 와이설명 변수가 없는 값 , xreg매개 변수 를 제거한 다음 예측와이이 모델을 사용합니다. 한 가지 장점은 설명 변수의 규칙을 캡처 할 수도 있다는 것입니다. 예를 들어, 아이스크림 판매는 온도에 의해 주도 될 수 있으며, 몇 개월 후에는 온도에 대한 예측이 좋지 않지만 온도는 계절적이므로 온도가 없는 모델 맞추기 만하면 계절적 모델이되고 계절적 모델이됩니다. 실제 판매 동인을 포함 하지 않더라도 예측은 실제로 매우 좋습니다 .

내가 추천 이 무료 온라인 예측 교과서 , 특히 다중 회귀에이 부분을 (불행하게도, ARIMAX에 대해 아무것도 없다가)뿐만 아니라, 롭 Hyndman의 블로그 포스트는 "ARIMAX 모델 혼란" .


1

Yogi Berra가 말했듯이 "특히 미래에 대한 예측은 어렵습니다."

많은 통계 소프트웨어 모듈은 SAS에 Proc Forecast 또는 사용 가능한 많은 ARIMA 모듈과 같은 미래 정보가없는 경우 일 변량 시계열 스트림을 기반으로 예측을 생성합니다. 이러한 예측은 데이터의 과거 동작을 기반으로 한 예측입니다.

귀하는 귀하의 데이터가 월간이지만 사용 가능한 기간을 알려주지 않습니다. 또 다른 방법은 3 개의 IV를 DV와 비교하여 24 개월 전에 다시 설정하여 예측 기간이 t + 24가되도록하는 것입니다. 이는 모델을 초기화하고 관련 계절성을 적절하게 보정하기에 충분한 날짜가 있다고 가정합니다.


텍스트를 편집했습니다. 지금 내 질문에 대답 할 수 있습니까?
SB

충분한 양의 정보가 있다면 시간을 모델에 통합 할 수있는 여러 가지 방법이 있습니다. 연도 별 (예 : 2009, 2010 등) 더미, 분기 별, 시계열의 각 월 또는 계절별 회계에 대한 접근 방식으로 매월마다 더미 변수를 작성할 수 있습니다. 또 다른 방법은 시간을 숫자 추세 함수로 취급하는 것입니다 (예 : 선형 (2009 년 1 월 1 일, 2 월 2 일 등의 기간 카운트 에서처럼) 또는 선형 추세를 기반으로하는 임의의 수의 다항식 추세, 예를 들어 2 차 (선형 추세 제곱) 이상. 더 알고 싶은 게 있습니까?
Mike Hunter

그러나 시간은 무관심한 변수가 될 수 없습니까? 그렇다면 3 개의 외부 변수를 사용하여 y 변수를 어떻게 예측할 수 있습니까? 실제로 예측을 수행 할 모델을 선택하는 데 어려움을 겪고 있습니까?
SB

이전 의견에서 설명한 것처럼 시간은 독립 변수입니다. 회귀, 계량 경제학 및 시계열 문헌을 읽어야한다고 생각합니다. 이 사이트에는 이러한 질문을 다루고 기사, 서적 등을 제안하는 스레드가 많이 있습니다.이 웹 페이지의 오른쪽에서 문제와 관련된 스레드를 찾아보십시오.
Mike Hunter

나는 많은 책을 읽었으며 해결책을 찾지 못했습니다. 이것이 제가이 질문을 한 이유입니다. 내가 사용할 수있는 몇 가지 문헌을 쓰실 수 있습니까? 아니면 올바른 웹 페이지입니까?
SB

1

내가 알듯이 세 가지 옵션이 있습니다.

  1. 독립 변수에 대해 공개 된 예측을 사용하거나 예측할 모형을 찾으십시오. 예를 들어, 인구 조사는 인구 데이터를 예측했을 것입니다.
  2. 보유한 데이터 세트를 사용하여 시간에 대해 각 독립 변수를 회귀 한 다음이 결과를 독립 변수에 대한 예측 모델로 사용하십시오.
  3. 독립 변수를 버리고 종속 변수를 시간의 함수와 지연된 y 값으로 모델링하십시오.

각 접근 방식에는 고유 한 장단점이 있으므로 특정 상황에 따라 달라집니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.