단위 루트가없는 시리즈가 고정되어 있지 않은 좋은 예?


18

나는 사람들이 증강 Dickey-Fuller 테스트 에서 null을 거부하는 것을 여러 번 보았고 시리즈가 정지되어 있음을 주장한다고 주장했습니다 (불행히도 이러한 주장의 출처를 보여줄 수는 없지만 비슷한 주장이 여기 저기에 있다고 상상해보십시오. 하나 또는 다른 저널).

나는 그것이 오해라고 주장한다 (단위 루트의 널 (NULL)을 거부하는 것이 정지 된 시리즈를 갖는 것과 반드시 ​​같은 것은 아니라는 점, 특히 그러한 시험이 수행 될 때 대안적인 형태의 비정 지성이 조사되거나 고려되지 않기 때문에).

내가 찾는 것은 다음 중 하나입니다.

a) 주장에 대한 명확한 반례 (지금은 부부를 상상할 수 있지만 다른 사람이 내가 생각한 것보다 더 좋은 것을 가질 것이라고 내기했습니다). 데이터 (시뮬레이션 또는 실제; 둘 다 장점이 있음)를 사용하여 특정 상황에 대한 설명 일 수 있습니다. 또는

b) 증가 된 당나귀-풀러에 거절 이유 설득력 인수 해야 정상 성을 설정하는 것처럼 보일

(또는 영리하다고 느끼면 (a)와 (b))


3
엑스=(1) 이며 확률은 1입니다.
추기경

@cardinal 글쎄, 그것은 확실히 ADF 테스트에 의해 거부 될 것이다. 그렇게 계산합니다.
Glen_b-복지 주 모니카

ADF 테스트에는 추세가 포함 된 변형이 있습니다. 널 (NULL)이 거부되면, 계열은 추세가 고정적입니다. 즉, 추세가 제거되면 정지하지만 고정되지는 않습니다.
mpiktas

+1. Glen_b, 선형 추세 + 고정 AR (1) 노이즈가 반례로 간주됩니까?
amoeba는 Reinstate Monica가

답변:


15

다음은 화이트 노이즈 테스트조차도 감지 할 수없는 고정되지 않은 시리즈의 예입니다 (Dickey-Fuller 유형 테스트는 물론).

이것은 백색 잡음이 아닙니다

예, 이것은 놀라운 일이지만 이것은 백색 소음이 아닙니다 .

대부분의 비 정적 카운터 예제는 결정적 추세 (일정하지 않은 평균) 또는 단위 근 /이 분산 시계열 (일정하지 않은 분산)이라는 고정의 처음 두 조건을 위반 한 것입니다. 그러나 평균 및 분산이 일정한 비 정적 공정을 가질 수도 있지만 세 번째 조건을 위반합니다. 자동 공분산 함수 (ACVF) 는 시간이 지남에 따라 일정해야하며뿐.| s t |영형V(엑스에스,엑스)|에스|

위의 시계열은 이러한 시리즈의 예이며 평균, 단위 분산이 0이지만 ACVF는 시간에 따라 다릅니다. 보다 정확하게, 위의 프로세스는 스퓨리어스 화이트 노이즈 가되도록 파라미터가있는 로컬 고정 MA (1) 프로세스입니다 (아래 참조 참조). MA 프로세스의 파라미터 시간이 지남에 따라 변화엑스=ε+θ1ε1

θ1()=0.51,

여기서 는 정규화 된 시간입니다. 이것이 백색 잡음처럼 보이는 이유는 (수학적 정의에 따르면 분명히 그렇지는 않지만) 시변 ACVF가 시간이 지남에 따라 0으로 통합되기 때문입니다. 샘플 ACVF가 평균 ACVF로 수렴하기 때문에 이는 샘플 자기 공분산 (및 자기 상관 (ACF))이 화이트 노이즈처럼 보이는 함수로 수렴됨을 의미합니다. 따라서 Ljung-Box 테스트조차도이 비정상 성을 감지 할 수 없습니다. 국부적으로 정지 된 대안에 대한 백색 잡음 시험에 관한 논문 (면책 조항 : 저자 임)은 그러한 국부적으로 정지 된 공정을 다루기위한 박스 시험의 확장을 제안합니다.=/

더 많은 R 코드 및 자세한 내용은 이 블로그 게시물을 참조하십시오 .

mpiktas 코멘트 후 업데이트 :

이것은 실제로는 보이지 않는 이론적으로 흥미로운 사례처럼 보일 수 있습니다. 실제 데이터 세트에서 이러한 스퓨리어스 화이트 노이즈를 직접 볼 가능성은 거의 없지만, 고정 된 모델 적합의 거의 모든 잔차에서이를 볼 수 있습니다. 너무 많은 이론적 세부 사항으로 들어 가지 않고 시변 공분산 함수 있는 일반적인 시변 모델 를 상상해보십시오 . 상수 모델 에 적합하면이 추정치는 실제 모델의 시간 평균에 가깝습니다 ; 그리고 자연스럽게 잔차는 이제 가까워 지며γ θ ( K , U ) θ θ ( U ) θ ( U ) - θ θθ()γθ(케이,)θ^θ()θ()θ^θ^대략적으로 0으로 통합됩니다. 자세한 내용은 Goerg (2012)를 참조하십시오.

예를 보자

library(fracdiff)
library(data.table)

tree.ring <- ts(fread(file.path(data.path, "tree-rings.txt"))[, V1])
layout(matrix(1:4, ncol = 2))
plot(tree.ring)
acf(tree.ring)
mod.arfima <- fracdiff(tree.ring)
mod.arfima$d


## [1] 0.236507

우리는 매개 변수를 사용하여 분수 소음에 맞게 그래서 (이후 우리가 생각하는 모든 것이 괜찮 우리는 고정 모델을 가지고). 잔차를 확인합시다 : D <0.5^=0.23^<0.5

arfima.res <- diffseries(tree.ring, mod.arfima$d)
plot(arfima.res)
acf(arfima.res)

시계열 및 ACF 플롯

좋아 보인다? 문제는 잔차가 가짜 백색 잡음이라는 것 입니다. 내가 어떻게 알아? 먼저 테스트 할 수 있습니다

Box.test(arfima.res, type = "Ljung-Box")
## 
##  Box-Ljung test
## 
## data:  arfima.res
## X-squared = 1.8757, df = 1, p-value = 0.1708

Box.test.ls(arfima.res, K = 4, type = "Ljung-Box")
## 
##  LS Ljung-Box test; Number of windows = 4; non-overlapping window
##  size = 497
## 
## data:  arfima.res
## X-squared = 39.361, df = 4, p-value = 5.867e-08

둘째, 우리는 문헌에서 나무 고리 데이터가 실제로 국부적으로 정지 된 부분 잡음이라는 것을 알고있다 (Goerg (2012)Ferreira, Olea, Palma (2013) 참조) .

이것은 이론적으로 보이는 나의 예가 실제로 대부분의 실제 사례에서 발생하고 있음을 보여줍니다.


+1, 아주 좋은 예입니다! 그런 시리즈의 실제 사례가 있습니까?
mpiktas

@mpiktas 귀하의 질문에 대한 답변을 게시에 업데이트를 추가했습니다.
Georg M. Goerg

예를 주셔서 감사합니다. 나는 블로그와 Ferreira et al.의 논문에서 몇 가지 실수를 발견했습니다. 블로그에서는 이고 실제로는 합니다. 또한 샘플 ACF, 즉 때문이 아니라 이기 때문에 0으로 수렴합니다. 즉 , 진술을 보유 하려면 를 에 따라 선택해야합니다 . Ferreira et al에서, 정의 (4)에는 가 없습니다 . γ1()=θ()σ()σ(1/)θ()γ^101θ()=001θ()σ2()=0σ()θ()ε
mpiktas

주어진 예는 시변 모델이있을 때 비 시변 모델에 적합하면 잘못된 추론으로 이어질 것이라고 말합니다. 그러나 이것은 각 실시간 시계열이 시변 모델로 모델링 될 수 있다는 것과는 거리가 멀다. 반면에 시변이 있는지 테스트하기 위해 테스트를 적용 할 수 있습니다. 흥미로운 통찰력에 다시 한번 감사드립니다.
mpiktas

@mpiktas 지적 해 주셔서 감사합니다. 블로그 게시물에서도 수정했습니다. 이 경우 가 중간 지점 ( ) 근처에 있기 때문에 동일한 방식으로 작동합니다 . 그리고 다시 연습 : 나는 매번 시계열이 그런 식으로 모델링 될 수 있다고 말하지 않았습니다 . 그러나 실제로 누군가가 좋아하는 고정 ARFIMA 모델로 모델을 모델링 할 때 이미이 클래스의 제품군에 있다고 가정합니다. (고정 모델은 로컬 고정 모델의 확률 제로 하위 집합입니다). σ()20.5
Georg M. Goerg

7

실시 예 1

강한 음의 MA 성분을 갖는 단위근 공정은 공칭 크기보다 실증적 인 크기의 ADF 시험을 유발 하는 것으로 알려져있다 (예, Schwert, JBES 1989 ).

즉, 을 로 설정하면 AR 및 MA 부분의 근이 거의 취소되므로 프로세스가 유한 샘플의 화이트 노이즈와 유사하며, 프로세스에 여전히 단위 루트 (정 지적이지 않음)가 있기 때문에 널에 대한 많은 잘못된 거부가 발생합니다.

와이=와이1+ϵ+θϵ1,
θ1

아래는 언급 한 ADF 테스트의 예입니다. [Schwert는 계수 통계량 또는 Phillips-Perron 테스트 를 살펴보면 훨씬 더 극단적 인 MA 구조로 훨씬 더 극단적 인 경험적 크기가 생성 될 수 있음을 시뮬레이션합니다 . 표 5-10을 참조하십시오.](ρ^1)

library(urca)
reps <- 1000
n <- 100
rejections <- matrix(NA,nrow=reps)

for (i in 1:reps){
  y <- cumsum(arima.sim(n = n, list(ma = -0.98)))
  rejections[i] <- (summary(ur.df(y, type = "drift", selectlags="Fixed",lags=12*(n/100)^.25))@teststat[1] < -2.89)
}
mean(rejections)

실시 예 2

평균 복귀이지만 고정되지 않은 프로세스. 예를 들어 는 AR 계수가 절대 값이 1보다 작은 AR (1) 프로세스 일 수 있지만 특정 시점에서 분산이 영구적으로 변경되는 혁신 프로세스 ( "무조건 이분산성") 일 수 있습니다. 그런 다음 프로세스에는 단위 루트가 없지만 시간이 지남에 따라 무조건 분포가 변경되므로 고정되지 않습니다.와이

분산 변경 유형에 따라 ADF 테스트는 여전히 자주 거부됩니다. 아래의 예에서, 하향 분산 차이가 있습니다.이 테스트는 계열이 수렴되는 테스트를 "믿게"만들어 단위 근의 널 (NULL)을 거부합니다.

library(urca)
reps <- 1000
n <- 100
rejections <- matrix(NA,nrow=reps)

for (i in 1:reps){
  u_1 <- rnorm(n/2,sd=5)
  u_2 <- rnorm(n/2,sd=1)
  u <- c(u_1,u_2)
  y <- arima.sim(n=n,list(ar = 0.8),innov=u)
  rejections[i] <- (summary(ur.df(y, type = "drift"))@teststat[1] < -2.89)      
}
mean(rejections)

(제외 적으로, ADF 시험은 무조건이 분산의 존재 하에서 중추적 인 점근 적 널 분포를 "잃는다".


@Glen_b, (나는 희망한다) 당신의 첫 번째 단락에 대한 답이 될 수는 있지만 실제로 질문의 제목에는 맞지 않을 것입니다-내 부분에 불일치가 있거나 이해력이 부족합니까?
Christoph Hanck

"이는"예 = 1
크리스토프 Hanck

"unit root"가 무엇인지 정의되어 있습니다. 나는 원래 그것을 "단위 원의 루트"(모듈러스 1의 루트)로 배웠지 만 이제는 실제로 1과 동일한 특성 다항식의 루트 인 것으로 보인다 (그리고 ADF 테스트의 맥락에서) . 제목에 잘못된 의미가 있더라도 귀하의 답변이 의도 한 질문에 응답하므로 괜찮다고 생각하십시오.
Glen_b-복지 주 모니카

내 요점은 분명하게 표현되지 않았을 것이다. 제목에서 "단위 루트없이"시리즈의 예를 찾는 반면 첫 번째 단락 (나에게)은 거부가 잘못된 예를 찾는 것처럼 들린다. 첫 번째 예는 후자의 경우이며 프로세스에는 단위 루트가 있지만 ADF가 거부 할 가능성이 있습니다.
Christoph Hanck

아, 미안, 나는 그것에 대해 제대로 생각하지 않았습니다. 그렇습니다. 엄밀히 말하면 제목에 대한 해석과 관련이 없지만 본문의 더 넓은 질문에 여전히 응답합니다. (제목은 반드시 미묘한 차이가 있으므로 문제가되지 않습니다.) ... 매우 흥미로운 답변이라고 생각하며 제목이 요구하는 것보다 내 실제 목적에 더 잘 부합하는 것이 있다면.
Glen_b-복지 주 모니카

7

단위 루트 테스트는 매우 어렵다. 하나의 테스트를 사용하는 것만으로는 충분하지 않으며 테스트에서 사용하는 정확한 가정에 매우주의해야합니다.

ADF 구성 방식은 화이트 노이즈가 추가 된 단순한 비선형 트렌드 인 시리즈에 취약합니다. 예를 들면 다음과 같습니다.

library(dplyr)
library(tseries)
set.seed(1000)
oo <- 1:1000  %>% lapply(function(n)adf.test(exp(seq(0, 2, by = 0.01)) + rnorm(201)))
pp <- oo %>% sapply("[[","p.value")

> sum(pp < 0.05)
[1] 680

여기서 우리는 기하 급수적 인 경향이 있으며 ADF의 성능이 상당히 나쁘다는 것을 알 수 있습니다. 30 %의 단위 루트의 널을 승인하고 70 %의 시간을 거부합니다.

일반적으로 분석 결과는 시리즈가 정지되어 있는지 여부를 주장하지 않습니다. 분석에 사용 된 방법이 정상 성을 요구하는 경우, 시리즈가 실제로 그렇지 않을 때 고정되어 있다는 잘못된 가정은 일반적으로 어떤 식 으로든 다른 방식으로 나타납니다. 따라서 단위 루트 테스트 부분뿐만 아니라 전체 분석을 개인적으로 살펴 봅니다. 예를 들어, OLS 및 NLS는 비정상이 아닌 데이터에 적합합니다. 따라서 누군가 시리즈가 고정되어 OLS / NLS를 적용한다고 잘못 주장하면이 주장과 관련이 없을 수 있습니다.


1
>0.05

아 예, 나는 표지판을 혼동했습니다. 이에 따라 답변을 수정했습니다. 알아 주셔서 감사합니다!
mpiktas

왜 사용하지 않았 sapply(oo, "[[","p.value")습니까?
germcd

음, 파이프 구문에서만 사용했습니다. 나는 파이프를 좋아한다 :)
mpiktas

1
나는 dplyr도 좋아한다. 이 코드의 경우에는 magrittr을로드하는 것으로 충분합니다.
mpiktas 2016
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.