절편 / 드리프트 및 선형 추세로 모델링 된 시계열에 대해 어떤 Dickey-Fuller 테스트를 수행합니까?


17

짧은 버전 :

나는 정상 성을 테스트하고있는 일련의 기후 데이터를 가지고 있습니다. 이전 연구에 따르면, 데이터의 기초가되는 (또는 "생성하기 위해") 모델이 절편 항과 양의 선형 시간 추세를 가질 것으로 기대합니다. 이러한 데이터의 정상 성을 테스트하려면 인터셉트 및 시간 추세 (예 : 방정식 # 3) 가 포함 된 Dickey-Fuller 테스트를 사용해야 합니까?

와이=α0+α1+δ와이1+

또는 모형에 기초한 첫 번째 차이가 절편에만 있기 때문에 절편 만 포함 된 DF 검정을 사용해야합니까?

긴 버전 :

위에서 언급했듯이, 나는 정상 성을 테스트하고있는 일련의 기후 데이터를 가지고있다. 이전 연구에 따르면 데이터의 기초가되는 모델에 절편 항, 양의 선형 시간 추세 및 일부 정규 분포 오차 항이있을 것으로 예상됩니다. 즉, 기본 모델이 다음과 같이 보일 것으로 기대합니다.

와이=0+1+β와이1+

여기서 는 정규 분포입니다. 기본 모델에 절편과 선형 시간 추세가 모두 있다고 가정하기 때문에 다음과 같이 간단한 Dickey-Fuller 검정의 방정식 # 3 을 사용하여 단위 근을 테스트했습니다.

와이=α0+α1+δ와이1+

이 테스트는 귀무 가설을 기각하고 기본 모델이 비정상적이라는 결론을 내릴 임계 값을 반환합니다. 그러나 기본 모델 에 인터셉트와 시간 추세가 있다고 가정 하더라도 첫 번째 차이 도 마찬가지 라는 것을 암시하지 않기 때문에이를 올바르게 적용하고 있는지 의문 입니다. 사실, 내 수학이 정확하다면 반대입니다.와이

가정 된 기본 모델의 방정식을 기반으로 첫 번째 차이를 계산하면 다음과 같이 나타납니다. 와이=와이와이1=[0+1+β와이1+][0+1(1)+β와이2+1]

와이=[a0a0]+[a1tat(t1)]+β[yt1yt2]+[utut1]

yt=a1+βyt1+utut1

따라서 첫 번째 차이 는 시간 추세가 아니라 절편 만있는 것으로 보입니다.y

내 질문은 유사하다 생각 이 하나 , 나는 확실히 내 질문에 그 대답을 적용하는 방법을 모르겠어요 예외입니다.

샘플 데이터 :

다음은 작업중 인 샘플 온도 데이터 중 일부입니다.

64.19749  
65.19011  
64.03281  
64.99111  
65.43837  
65.51817  
65.22061  
65.43191  
65.0221  
65.44038  
64.41756  
64.65764  
64.7486  
65.11544  
64.12437  
64.49148  
64.89215  
64.72688  
64.97553  
64.6361  
64.29038  
65.31076  
64.2114  
65.37864  
65.49637  
65.3289  
65.38394  
65.39384  
65.0984  
65.32695  
65.28  
64.31041  
65.20193  
65.78063  
65.17604  
66.16412  
65.85091  
65.46718  
65.75551  
65.39994  
66.36175  
65.37125  
65.77763  
65.48623  
64.62135  
65.77237  
65.84289  
65.80289  
66.78865  
65.56931  
65.29913  
64.85516  
65.56866  
64.75768  
65.95956  
65.64745  
64.77283  
65.64165  
66.64309  
65.84163  
66.2946  
66.10482  
65.72736  
65.56701  
65.11096  
66.0006  
66.71783  
65.35595  
66.44798  
65.74924  
65.4501  
65.97633  
65.32825  
65.7741  
65.76783  
65.88689  
65.88939  
65.16927  
64.95984  
66.02226  
66.79225  
66.75573  
65.74074  
66.14969  
66.15687  
65.81199  
66.13094  
66.13194  
65.82172  
66.14661  
65.32756  
66.3979  
65.84383  
65.55329  
65.68398  
66.42857  
65.82402  
66.01003  
66.25157  
65.82142  
66.08791  
65.78863  
66.2764  
66.00948  
66.26236  
65.40246  
65.40166  
65.37064  
65.73147  
65.32708  
65.84894  
65.82043  
64.91447  
65.81062  
66.42228  
66.0316  
65.35361  
66.46407  
66.41045  
65.81548  
65.06059  
66.25414  
65.69747  
65.15275  
65.50985  
66.66216  
66.88095  
65.81281  
66.15546  
66.40939  
65.94115  
65.98144  
66.13243  
66.89761  
66.95423  
65.63435  
66.05837  
66.71114 

1
이 링크에 포함 된 내용 ( tamino.wordpress.com/2010/03/11/not-a-random-walk )이 귀하의 질문에 대답 하는지 모르겠지만 어쨌든 관심 이 있으리라고 생각했습니다.
매트 알브레히트

@MattAlbrecht 그것은 매우 흥미로운 링크입니다. 나는 원래 시계열에 Dickey-Fuller 테스트를 어떻게 적용해야하는지 아직도 혼란스러워합니다. 최근 편집에서 더 관련 정보를 추가하려고했습니다.
Ricardo Altamirano

더 나은 답변을 드릴 수 없어서 죄송합니다. 시계열 분석에 그치지 않습니다. 그러나, 당신은 또한 최근에 질문 한이 질문 ( stats.stackexchange.com/questions/27748 )에 관심이있을 수 있습니다 . 게시 할 수있는 데이터가 있다면 다른 사람들에게 도움이 될 수 있습니까?
매트 알브레히트

@MattAlbrecht 샘플 데이터를 추가했습니다. 더 좋은 형식이 포함되어 있습니까?
Ricardo Altamirano

답변:


20

시계열의 첫 번째 차이와 관련하여 확대 된 Dickey-Fuller 회귀 분석에서 결정 론적 용어를 지정하려면 시계열 수준 의 드리프트 및 (파라 메트릭 / 선형) 추세를 고려해야합니다 . 혼란은 당신이 한 방식으로 첫 번째 차이 방정식을 도출하는 것에서 발생합니다.

Dickey-Fuller 회귀 모형

계열의 수준에 드리프트 및 추세 항 이 경우 대한 귀무 가설은 입니다.H 0

와이=β0,+β1,+β2,와이1+ε
H0:β2,=1

이 데이터 생성 프로세스 [DGP]에 의해 암시 된 첫 번째 차이점에 대한 한 가지 방정식은 을 도출 한 것입니다. 그러나 이것은 테스트에서 사용 된 (증강 된) Dickey Fuller 회귀가 아닙니다.

Δ와이=β1,+β2,Δ와이1+Δε

대신, 첫 번째 방정식의 양쪽에서 을 빼서 생성 하여 올바른 버전을 얻을 수 있습니다. 이것은 (증강 된) Dickey-Fuller 회귀이며, 비정규성에 대한 귀무 가설의 동등한 버전은 검정 위 회귀 분석에서 의 OLS 추정값을 사용한 t- 검정 입니다. 드리프트와 트렌드는이 사양을 그대로 유지합니다.와이1

Δ와이=β0,+β1,+(β2,1)와이1+εβ0,+β1,+β2,와이1+ε
H0:β2,=0β2,

시계열 수준에서 선형 추세가 있는지 확실하지 않은 경우 선형 추세와 단위 근, 즉 공동으로 테스트 할 수 있습니다. 은 적절한 임계 값으로 F- 검정을 사용하여 테스트 할 수 있습니다. 이러한 테스트 및 임계 값은 패키지 의 R 기능 으로 생성됩니다 .H0:[β2,,β1,]'=[0,0]'ur.dfurca

몇 가지 예를 자세히 살펴 보겠습니다.

1. 미국 투자 시리즈 사용

첫 번째 예는 Lutkepohl and Kratzig (2005, pg. 9) 에서 논의 된 미국 투자 시리즈를 사용합니다 . 시리즈의 플롯과 첫 번째 차이점은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

계열의 수준에서 평균이 0이 아닌 것으로 보이지만 선형 추세는 없습니다. 따라서, 우리는 연속적인 상관 관계를 설명하기 위해 인터셉트와 함께 종속 Dickey Fuller 회귀를 보강하고, 종속 변수의 3 개 지연을 진행합니다. 회귀 방정식을 차이로 지정하기 위해 레벨을 살펴본 요점에 유의하십시오.

Δ와이=β0,+β2,와이1+제이=1γ제이Δ와이제이+ε

이를 수행하는 R 코드는 다음과 같습니다.

    library(urca)
    library(foreign)
    library(zoo)

    tsInv <- as.zoo(ts(as.data.frame(read.table(
      "http://www.jmulti.de/download/datasets/US_investment.dat", skip=8, header=TRUE)), 
                       frequency=4, start=1947+2/4))
    png("USinvPlot.png", width=6,
        height=7, units="in", res=100)
    par(mfrow=c(2, 1))
    plot(tsInv$USinvestment)
    plot(diff(tsInv$USinvestment))
    dev.off()

    # ADF with intercept
    adfIntercept <- ur.df(tsInv$USinvestment, lags = 3, type= 'drift')
    summary(adfIntercept)

결과는 추정 된 계수에 기초한 t- 검정을 사용하여이 시리즈에 대해 비정규 성 귀무 가설을 기각 할 수 있음을 나타냅니다. 절편과 기울기 계수의 결합 F- 검정 ( ) 계열에 단위근이 있다는 귀무 가설을 기각합니다.H:[β2,,β0,]'=[0,0]'

2. 독일어 (로그) 소비 시리즈 사용

두 번째 예는 독일의 계절별 계절 조정 시계열을 사용하는 것입니다. 시리즈의 플롯과 그 차이점은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

계열 수준에서 계열에 추세가 있음이 분명하므로 연속 상관 관계를 설명하기 위해 첫 번째 차이의 네 가지 지연과 함께 증가 된 Dickey-Fuller 회귀 분석의 추세를 포함합니다.

Δ와이=β0,+β1,+β2,와이1+제이=14γ제이Δ와이제이+ε

이를 수행하는 R 코드는

# using the (log) consumption series
tsConsump <- zoo(read.dta("http://www.stata-press.com/data/r12/lutkepohl2.dta"), frequency=1)
png("logConsPlot.png", width=6,
    height=7, units="in", res=100)
par(mfrow=c(2, 1))
plot(tsConsump$ln_consump)
plot(diff(tsConsump$ln_consump))
dev.off()

# ADF with trend
adfTrend <- ur.df(tsConsump$ln_consump, lags = 4, type = 'trend')
summary(adfTrend)

결과는 추정 된 계수에 기초하여 t- 검정을 사용하여 비정상 성이없는 널을 기각 할 수 없음을 나타냅니다. 선형 추세 계수와 기울기 계수의 결합 F- 검정 ( )는 비정상 성이 아닌 null을 거부 할 수 없음을 나타냅니다.H:[β2,,β1,]'=[0,0]'

3. 주어진 온도 데이터 사용

이제 데이터 속성을 평가할 수 있습니다. 레벨과 첫 번째 차이점의 일반적인 플롯은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

이는 데이터에 가로 채기와 추세가 있음을 나타내므로 다음 R 코드를 사용하여 지연된 첫 번째 차이 항이없는 ADF 테스트를 수행합니다.

# using the given data
tsTemp <- read.table(textConnection("temp 
64.19749  
65.19011  
64.03281  
64.99111  
65.43837  
65.51817  
65.22061  
65.43191  
65.0221  
65.44038  
64.41756  
64.65764  
64.7486  
65.11544  
64.12437  
64.49148  
64.89215  
64.72688  
64.97553  
64.6361  
64.29038  
65.31076  
64.2114  
65.37864  
65.49637  
65.3289  
65.38394  
65.39384  
65.0984  
65.32695  
65.28  
64.31041  
65.20193  
65.78063  
65.17604  
66.16412  
65.85091  
65.46718  
65.75551  
65.39994  
66.36175  
65.37125  
65.77763  
65.48623  
64.62135  
65.77237  
65.84289  
65.80289  
66.78865  
65.56931  
65.29913  
64.85516  
65.56866  
64.75768  
65.95956  
65.64745  
64.77283  
65.64165  
66.64309  
65.84163  
66.2946  
66.10482  
65.72736  
65.56701  
65.11096  
66.0006  
66.71783  
65.35595  
66.44798  
65.74924  
65.4501  
65.97633  
65.32825  
65.7741  
65.76783  
65.88689  
65.88939  
65.16927  
64.95984  
66.02226  
66.79225  
66.75573  
65.74074  
66.14969  
66.15687  
65.81199  
66.13094  
66.13194  
65.82172  
66.14661  
65.32756  
66.3979  
65.84383  
65.55329  
65.68398  
66.42857  
65.82402  
66.01003  
66.25157  
65.82142  
66.08791  
65.78863  
66.2764  
66.00948  
66.26236  
65.40246  
65.40166  
65.37064  
65.73147  
65.32708  
65.84894  
65.82043  
64.91447  
65.81062  
66.42228  
66.0316  
65.35361  
66.46407  
66.41045  
65.81548  
65.06059  
66.25414  
65.69747  
65.15275  
65.50985  
66.66216  
66.88095  
65.81281  
66.15546  
66.40939  
65.94115  
65.98144  
66.13243  
66.89761  
66.95423  
65.63435  
66.05837  
66.71114"), header=T)
tsTemp <- as.zoo(ts(tsTemp, frequency=1))

png("tempPlot.png", width=6,
    height=7, units="in", res=100)
par(mfrow=c(2, 1))
plot(tsTemp$temp)
plot(diff(tsTemp$temp))
dev.off()

# ADF with trend
adfTrend <- ur.df(tsTemp$temp, type = 'trend')
summary(adfTrend)

t- 검정 및 F- 검정 모두에 대한 결과는 온도 시리즈에 대해 비정규 성 널을 기각 할 수 있음을 나타냅니다. 나는 그것이 문제를 다소 명확하게하기를 바랍니다.


5
이것은 Stack Exchange 네트워크에서받은 가장 명확하고 유용한 답변 중 하나이며 DF 테스트에 대한 혼란을 실제로 줄입니다. 감사합니다.
Ricardo Altamirano

@RicardoAltamirano 천만에요. 기꺼이 도와 드리겠습니다.
tchakravarty

2
이것이 매우 좋은 대답이라고 동의하십시오.
RAH

0

Dickey-Fuller 검정의 귀무 가설은 프로세스에 단위 루트가 있다는 것입니다. 따라서 null을 거부하면 공정이 고정되어 있습니다 (가설 ​​테스트의 일반적인 경고와 함께).

수학에 관해, 표현

와이=α0+α1+δ와이1+

와이와이와이1와이1와이1


0

이전 답변은 훌륭했습니다.

일반적으로 플롯을 기반으로 구현할 테스트를 결정합니다. 이 경우 데이터에 가로 채기와 경향이있는 것으로 보입니다.

레벨에서 단위 루트를 테스트하는 경우 인터셉트 및 트렌드 모델을 사용합니다. 테스트를 다르게 실행하면 인터셉트 모델 만 사용하게됩니다.

이 데이터에 대해 계절별 테스트를 사용하도록 권장해야하므로이 질문에 답했습니다. 이 테스트는 실제로 복잡합니다 (계절별 작업은 쉽지 않습니다). 그러나 데이터의 특성 (온도)과 플롯에서 계절별 동작을 관찰 할 수 있습니다. 그런 다음 HEGY 테스트를 연구하고 추정치가 강력 해 지도록 구현해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.