시계열에 대한 설명은 무엇입니까?

11

지금까지는 단면 데이터로 대부분 작업했으며 아주 최근에는 브라우징, 수많은 시계열 문헌을 통해 문제를 스캔하여 시계열 분석에서 어떤 역할 설명 변수가 어떤 역할을하는지 궁금합니다.

디트 렌딩 대신 트렌드 를 설명하고 싶습니다 . 제가 소개로 읽은 내용의 대부분은이 시리즈가 확률 론적 과정에서 나온 것이라고 가정합니다. AR (p) 및 MA 프로세스와 ARIMA 모델링에 대해 읽었습니다. 자동 회귀 프로세스보다 더 많은 정보를 다루고 싶을 때 VAR / VECM을 발견하고 몇 가지 예를 실행했지만 여전히 설명에서 횡단면에서 설명하는 것과 더 가까운 경우가 있는지 궁금합니다.

이것의 배후의 동기는 내 시리즈의 분해가 트렌드가 주요 기여자이며 나머지 및 계절적 효과가 거의 영향을 미치지 않는다는 것을 보여줍니다. 이 추세를 설명하고 싶습니다.

여러 개의 다른 시리즈에서 내 시리즈를 회귀해야합니까? 직관적으로 직렬 상관 관계 때문에 gls를 사용합니다 (cor 구조에 대해서는 잘 모르겠습니다). 나는 가짜 회귀에 대해 들었고 이것이 함정이라는 것을 이해하지만 그럼에도 추세를 설명하는 방법을 찾고 있습니다.

이것이 완전히 잘못되었거나 드문 일입니까? 아니면 지금까지 올바른 장을 놓친 적이 있습니까?

r time-series multivariate-analysis

— hans0l0
소스

15

답변에 제공 한 의견을 바탕으로 가짜 인과 관계를 알고 있어야 합니다. 시간 추세가있는 변수는 시간 추세가있는 다른 변수와 상관됩니다. 예를 들어, 출생부터 27 세까지의 체중은 출생부터 27 세까지의 체중과 높은 상관 관계가있을 것입니다. 분명히, 체중은 체중으로 인한 것이 아닙니다 . 그렇다면 체육관에 더 자주 갈 것을 부탁드립니다.

횡단면 데이터에 익숙하므로 생략 된 변수 설명을 제공합니다. 내 몸무게를 보자 $x_t$ 그리고 당신의 체중은 $y_t$ , 어디

\begin{aligned} {엑스}_{티} & = α_{0} + α_{1} 티 + ϵ_{티} 과 \\ {와이}_{티} & = β_{0} + β_{1} 티 + η_{티} . \end{aligned}

$\begin{align*}x_t &= \alpha_0 + \alpha_1 t + \epsilon_t \text{ and} \\ y_t &= \beta_0 + \beta_1 t + \eta_t.\end{align*}$

그런 다음 회귀

{와이}_{티} = γ_{0} + γ_{1} {엑스}_{티} + ν_{티}

$\begin{equation*}y_t = \gamma_0 + \gamma_1 x_t + \nu_t\end{equation*}$ 포함 된 변수와 관련된 생략 된 변수 (시간 추세)가 있습니다.

x_{t}

$x_t$ . 따라서 계수

γ_{1}

$\gamma_1$ 편향 될 것입니다 (이 경우 시간이 지남에 따라 가중치가 커짐에 따라 긍정적입니다).

시계열 분석을 수행 할 때 변수가 고정되어 있는지 확인해야합니다. 그렇지 않으면 이러한 가짜 원인 결과가 나타납니다. 통합 시리즈는 예외이지만 시계열 텍스트를 참조하여 더 자세한 내용을들을 수 있습니다.

— 야경
소스

5

가짜 회귀의 예를 들어 +1 강의에서 사용합니다 :)

— mpiktas

1

어, 당신은 체중을 줄이기 위해 체육관에가요? :)

— hans0l0

6

단면 회귀 분석과 동일한 직관을 시계열 회귀 분석에 사용할 수 있습니다. 다른 변수를 사용하여 추세를 설명하는 것은 완벽하게 유효합니다. 주요 차이점은 회귀 변수가 임의 변수라고 암시 적으로 가정한다는 것입니다. 따라서 회귀 모형에서 :

{와이}_{티} = β_{0} + {엑스}_{티 1} β_{1} + . . . + {엑스}_{티 케이} β_{케이} + ε_{티}

$Y_t=\beta_0+X_{t1}\beta_1+...+X_{tk}\beta_k+\varepsilon_t$

우린 원한다 $E(\varepsilon_t|X_{t1},...,X_{tk})=0$ 대신에 $E\varepsilon_t=0$ 과 $E(\varepsilon_t^2|X_{t1},...,X_{tk})=\sigma^2$ 대신에 $E\varepsilon_t^2=\sigma^2$ .

회귀의 실제 부분은 동일하게 유지되며 모든 일반적인 통계 및 방법이 적용됩니다.

어려운 부분은 어떤 유형의 랜덤 변수 또는이 경우 확률 적 프로세스를 보여주는 것입니다 $X_{tk}$ 우리는 고전적인 방법을 사용할 수 있습니다. 일반적인 중심 한계 정리는 독립적 인 랜덤 변수를 포함하므로 적용 할 수 없습니다. 시계열 프로세스는 일반적으로 독립적이지 않습니다. 이것은 문구 성의 중요성이 작용하는 곳입니다. 정지 공정의 대부분에 대해 중앙 한계 정리를 적용 할 수 있으므로 고전적인 회귀 분석을 적용 할 수 있습니다.

시계열 회귀 분석의 주된 경고는 회귀자가 고정되어 있지 않을 때 크게 실패 할 수 있다는 것입니다. 그런 다음 일반적인 회귀 방법을 사용하면 실제로는 그렇지 않은 경우 추세가 설명 될 수 있습니다. 따라서 추세를 설명하려면 진행하기 전에 비정상 성을 확인해야합니다. 그렇지 않으면 잘못된 결론에 도달 할 수 있습니다.

— mpiktas
소스

1

양해 해 주셔서 감사합니다. 여전히 GDP는 내 변수에 대한 설명이 될 수 있습니다. 아마도 나는 단지 시간 추세를 나타 내기 때문에 성장률을 더 잘 사용할 것입니다. 회귀를 사용하려는 이유는 GDP와 같은 시간 추세 변수로 실제로 설명되지 않은 것을 추출하는 데 관심이 있기 때문입니다.

— hans0l0

1

@ ran2, 항상 실제 가치 대신 GDP 성장을 사용하는 것이 가장 좋습니다. 회귀 분석을 통해 추세를 설명 하지 않는 변수 가 무엇인지 알 수 있으므로 추세를 설명 할 수있는 변수 (또는 추세를 설명하지 않은 변수)가 없다는 결과가 나올 수 있습니다.

— mpiktas

1

@raegtin, 예를 들어 두 번째 순간이없는 고정 프로세스.

— mpiktas

1

내가 추가 할 수있는 유일한 것은 "설명"세상을 사용할 때주의를 기울이는 것입니다. 일부 검토 자들은 이것을 좋아하지 않을 것입니다.

— Jase

1

@Jase, OP가 요구 한 의미에서 의미있는 통계적 관계를 찾는 용어를 사용했습니다.

— mpiktas

3

지지 / 원인 / 도움 / 오른쪽 / 외인 / 예측 시리즈가있는 경우 선호되는 접근 방식은 단일 방정식 다중 입력 전달 함수를 구성하는 것입니다. 지정되지 않은 / 생략 된 결정적 입력에 대해 가능한 모델 잔차를 조사해야합니다. 즉 중재 감지 ala Ruey Tsay 1988 Journal of Forecasting 및 ARIMA 구성 요소를 통한 지정되지 않은 확률 론적 입력을 수행해야합니다. 따라서 사용자가 제안한 인과 관계 (및 필요한 지연!)뿐만 아니라 두 가지 유형의 생략 된 구조 (더미 및 ARIMA)를 명시 적으로 포함 할 수 있습니다.

최종 모델의 매개 변수가 시간이 지남에 따라 크게 변하지 않도록주의해야합니다. 그렇지 않으면 데이터 세그먼테이션이 순서에있을 수 있으며 최종 모델의 잔차가 이종 분산을 갖는 것으로 입증 될 수 없습니다.

원래 시리즈의 추세는 예측 변수 시리즈의 추세 또는 관심 시리즈의 자동 회귀 동역학 또는 잠재적 상태 상수 또는 하나 이상의 로컬 시간 추세에 의해 결정된 생략 된 결정적 시리즈로 인한 것일 수 있습니다.

— IrishStat
소스

0

덜 기술적 인 관점에서 종종 추세를 설명하는 것만으로는 도움이되지 않습니다. 즉, 시간을 주요 관심의 예측 자로 취급합니다. 시간에 따른 계열의 변화는 종종 자기 회귀 적 및 / 또는 외생 적 과정을 포함한 다른 변수의 근본적인 영향을 암시하며, 이는보다 개념적으로 조사에 관련됩니다. 이러한 변수가 시간이 지남에 따라 변하면 실제로 @mpiktas가 보여준 것처럼 인위적으로 중요한 관계에 빠지지 않도록 시간 효과를 제어해야합니다.

— 비 슬리퍼
소스