시계열이 정지인지 아닌지를 아는 방법?


30

내가 R을 사용하고, 나는 구글에 검색하고 배운 kpss.test(), PP.test()그리고 adf.test()시계열의 정상 성에 대해 알고하는 데 사용됩니다.

그러나 나는 통계학자가 아니며 결과를 해석 할 수 있습니다

> PP.test(x)

     Phillips-Perron Unit Root Test
data:  x 
Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01

> kpss.test(b$V1)

  KPSS Test for Level Stationarity
  data:  b$V1 
  KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1

Warning message:
In kpss.test(b$V1) : p-value greater than printed p-value
> adf.test(x)

    Augmented Dickey-Fuller Test

data:  x 
Dickey-Fuller = -9.6825, Lag order = 9, p-value = 0.01
alternative hypothesis: stationary

Warning message:
In adf.test(x) : p-value smaller than printed p-value

나는 수천 개의 시계열을 다루고 있으며 친절하게 시계열의 정상성에 대해 정량적으로 확인하는 방법을 알려줍니다.

답변:


22

시리즈가 고정 대 비정 적인지 테스트하려면 일련의 대립 가설을 고려해야합니다. 각각의 나열 가능한 가우스 가정에 대해 하나씩. 가우스 가정은 오류 과정에 관한 것이며 평가중인 관측 된 계열과 아무 관련이 없다는 것을 이해해야합니다. StasK에 의해 정확하게 요약 된 바와 같이 이것은 평균 변화, 분산 변화, 시간에 따른 모델 파라미터의 변화와 같은 정지성의 위반을 포함 할 수 있습니다. 예를 들어, 상향 추세 값의 세트는 Y에서 일정하지 않은 반면 적합한 모델로부터의 잔차가 일정한 평균을 갖는 것으로 기술 될 수있는 일련의 주요한 예일 것이다. 따라서 원래 계열은 평균에서 고정적이지 않지만 나머지 계열은 평균에서 고정적입니다. Pulses, Level Shifts, Seasonal Pulses 및 / 또는 Local Time Trends와 같은 잔차 계열에서 완화되지 않은 평균 위반이있는 경우 잔차 계열 (처리되지 않은)은 평균에서 정지하지 않은 것으로 특성화 될 수 있지만 일련의 지표 변수는 모델 잔차를 평균으로 고정하기 위해 모델에 쉽게 감지 및 통합됩니다. 원래 계열의 분산이 고정되지 않은 분산을 나타내는 경우 일정한 분산을 갖는 오류 프로세스를 렌더링하기 위해 필터 / 모델을 제한하는 것이 매우 합리적입니다. 마찬가지로 모형의 잔차에는 세 가지 가능한 해결 방법 중 하나를 요구하는 일정하지 않은 분산이있을 수 있습니다. 계절 펄스 및 / 또는 로컬 시간 추세는 잔차 시리즈 (처리되지 않은)가 평균에서 비정규적인 것으로 특징 지어 질 수있는 반면, 일련의 지표 변수는 모델에서 잔차를 정지시키기 위해 일련의 지표 변수를 쉽게 탐지하고 모델에 통합 할 수 있습니다. . 원래 계열의 분산이 고정되지 않은 분산을 나타내는 경우 일정한 분산을 갖는 오류 프로세스를 렌더링하기 위해 필터 / 모델을 제한하는 것이 매우 합리적입니다. 마찬가지로 모형의 잔차에는 세 가지 가능한 해결 방법 중 하나를 요구하는 일정하지 않은 분산이있을 수 있습니다. 계절 펄스 및 / 또는 로컬 시간 추세는 잔차 시리즈 (처리되지 않은)가 평균에서 비정규적인 것으로 특징 지어 질 수있는 반면, 일련의 지표 변수는 모델에서 잔차를 정지시키기 위해 일련의 지표 변수를 쉽게 탐지하고 모델에 통합 할 수 있습니다. . 원래 계열의 분산이 고정되지 않은 분산을 나타내는 경우 일정한 분산을 갖는 오류 프로세스를 렌더링하기 위해 필터 / 모델을 제한하는 것이 매우 합리적입니다. 마찬가지로 모형의 잔차에는 세 가지 가능한 해결 방법 중 하나를 요구하는 일정하지 않은 분산이있을 수 있습니다. 원래 계열의 분산이 고정되지 않은 분산을 나타내는 경우 일정한 분산을 갖는 오류 프로세스를 렌더링하기 위해 필터 / 모델을 제한하는 것이 매우 합리적입니다. 마찬가지로 모형의 잔차에는 세 가지 가능한 해결 방법 중 하나를 요구하는 일정하지 않은 분산이있을 수 있습니다. 원래 계열의 분산이 고정되지 않은 분산을 나타내는 경우 일정한 분산을 갖는 오류 프로세스를 렌더링하기 위해 필터 / 모델을 제한하는 것이 매우 합리적입니다. 마찬가지로 모형의 잔차에는 세 가지 가능한 해결 방법 중 하나를 요구하는 일정하지 않은 분산이있을 수 있습니다.

  1. 가중 최소 제곱 (일부 분석가들이 간과 한)
  2. Box-Cox 테스트 및 / 또는 식별 할 수있는 오류의 분산에서 예상 값을 분리하기위한 전력 변환
  3. 제곱 잔차에서 분명한 ARIMA 구조를 설명하기 위해 GARCH 모델이 필요합니다. 시간이 지남에 따라 매개 변수가 변경되거나 시간이 지남에 따라 모델의 형식이 변경되면 계속해서이 특성을 감지하고이를 데이터 세분화 또는 TAR 접근 방식 (a la Tong)으로 활용해야합니다.

34

정상 성은 공정의 한계 분포가 시간에 따라 변하지 않음을 의미합니다. 약한 형태는 평균과 분산이 시간이 지남에 따라 동일하게 유지됨을 나타냅니다. 따라서이를 위반하는 것은 어리석은 이유가 아닌 고정되지 않은 것으로 간주됩니다. 예를 들어, 결정 론적 는 비정규적인 데, 그 의미는 계속 하지만 상당히 단순하고 예측 가능한 프로세스입니다.yt=sint

고려중인 모든 테스트에는 임의의 보행 과정 또는 쉽게 수정 (예 : 추가 지연 ,

yt=yt1+ϵt
yt2yt3작은 계수로). 이것은 미래의 가격 변동을 예측하는 데 사용할 수있는 정보가없는 효율적인 금융 시장의 간단한 모델입니다. 대부분의 경제학자들은 시계열이 ARIMA 모델에서 나온 것으로 생각합니다. 이러한 시계열은 일이 발생하는 기간 (월, 분기 또는 연도)을 잘 정의하므로 통합 시계열보다 더 나빠지는 경우는 거의 없습니다. 따라서 이러한 테스트는 평균 변화, 분산 변화, 자기 회귀 계수의 변화 등과 같은보다 복잡한 정지성 위반에 대해 설계되지 않았지만 이러한 효과에 대한 테스트도 분명히 개발되었습니다.

공학 또는 자연 과학에서는 장거리 의존, 분수 적분, 핑크 노이즈 등과 같은 복잡한 문제로 인해 시계열이 발생할 가능성이 높습니다. 일반적인 시간 척도에 대한 프로세스 설명에서 명확한 지침이 부족합니다. 기후 변화가 얼마나 자주 발생합니까?), 일반적으로 주파수 영역의 데이터를 분석하는 것이 더 합리적입니다 (경제학자에게는 주파수 영역이 분명합니다 : 연간 계절주기와 3-4-5 년 더 긴 비즈니스주기가 있음) 그렇지 않으면 약간의 놀라움이 발생할 수 있습니다).

그래서 기본적으로 나는 당신이 당신이 시작한 것을하고 싶지 않은 이유를 말했습니다. 시계열을 이해하지 못한다면 어리석은 일을했기 때문에 프로젝트를 망쳐 놓는 것보다 컨설팅 비용을 지불하는 사람을 찾는 것이 좋습니다. 즉, 문제에 대한 공식적인 솔루션, 주어진 시리즈, 적어도 하나 개의 시험이있을 때 정지 시리즈의 귀무 가설을 기각 할 것이라고 말했다 가졌 아래 - 값을 여기서 의 총 수입니다 시리즈, 은 수행 한 테스트 수이고, 는 5 % 유의 수준이며, 전체 표현은 다중 테스트의 Bonferroni 보정입니다. 출력에 가 표시되지 않습니다p0.05/(3M)M30.05p-정확한 값으로 값을 반환하므로와 같이 반환 된 클래스 멤버로 가져와야합니다 pp.test(x)$p.value. 어쨌든 사이클 에서이 작업을 수행하므로 모든 출력을 억제하고 정상에 실패한 변수의 이름 만 생성하면 충분할 것입니다.


4

평균 수준과 분산이 시간이 지남에 따라 일정하게 유지되면 시계열은 정지 상태입니다. 우리의 게시물 에서이 주제에 대한 자세한 내용 (R의 관련 테스트 사양과 함께)을 읽을 수 있습니다. http://www.statosphere.com.au/check-time-series-stationary-r/


1
늦은 의견이지만 시간이 지남에 따라 평균과 분산이 일정하게 유지된다는 것은 무엇을 의미합니까? 주어진 데이터 세트에 대해 평균과 분산이 무엇입니까? 아니면 데이터의 모든 하위 집합의 평균 / var이 같아야합니까?
Erik Vesterlund

2
링크 된 페이지를 살펴 보았습니다. "Ljung-Box 테스트는 1-20 시차에서 0이 아닌 상관 관계에 대한 중요한 증거가 있는지 검사합니다. 작은 p- 값 (즉, 0.05 미만)은 계열이 정지 된 것으로 나타냅니다." 결론은 명백하다. null은 관측치가 iid라는 것입니다. 작은 p- 값을 기준으로 널을 거부하면 하나 이상의 중대한 지연이 있음을 나타냅니다. 웹 사이트의 결론은 정상 성이 적어도 하나의 지연에 대해 상당한 자기 상관을 요구한다는 것을 의미합니다. 그리고 그것은 사실이 아닙니다.
random_guy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.