비주기적인 시계열의 추세를 분석하는 방법


12

비 주기적 시계열을 따르고 있다고 가정하십시오. 분명히 추세가 감소하고 있으며 일부 테스트 ( p-value 사용 ) 로 증명하고 싶습니다 . 값 사이의 강한 시간적 (직렬) 자동 상관으로 인해 고전적인 선형 회귀를 사용할 수 없습니다.

library(forecast)
my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9,
               6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1),
            start = 1, end = 27,frequency = 1)
plot(my.ts, col = "black", type = "p",
     pch = 20, cex = 1.2, ylim = c(0,13))
# line of moving averages 
lines(ma(my.ts,3),col="red", lty = 2, lwd = 2)

여기에 이미지 설명을 입력하십시오

내 옵션은 무엇입니까?


4
시리즈가 비 주기적 ( frequency=1) 이라는 사실 은 여기서 거의 관련이 없다고 생각합니다 . 보다 관련성있는 문제는 모델의 기능적 양식을 기꺼이 지정할지 여부입니다.
Richard Hardy

1
데이터가 무엇인지에 대한 더 자세한 정보는 모델링에 유용 할 것입니다.
bdeonovic

데이터는 매년 저수지에서 계산 된 특정 종의 개체 수 (천 단위)입니다.
Ladislav Naďo

1
@LadislavNado 시리즈는 제공된 예제와 같이 짧습니까? 그렇다면 샘플 크기로 인해 사용할 수있는 방법의 수가 줄어들 기 때문에 묻습니다.
Tim

1
감소하는 측면의 명백 함은 규모에 따라 다르며, 이는 나에게 고려해야 할 것입니다
Laurent Duval

답변:


7

말했듯이 예제 데이터의 추세는 분명합니다. 선형 회귀 (명확한 매개 변수 선택)를 사용하는 것보다 가설 테스트로이 사실을 정당화하려면 단조 추세에 비모수 Mann-Kendall 테스트를 사용할 수 있습니다. 이 시험은

시간이 지남에 따라 관심 변수의 단조로운 상향 또는 하향 추세가 있는지 평가합니다. 단조 상승 (하향) 추세는 변수가 시간이 지남에 따라 지속적으로 증가 (감소)하지만 추세는 선형이거나 선형이 아닐 수 있음을 의미합니다. ( http://vsp.pnnl.gov/help/Vsample/Design_Trend_Mann_Kendall.htm )

또한 Gilbert (1987)가 지적한 바와 같이

결 측값이 허용되고 데이터가 특정 분포를 따르지 않아도되므로 특히 유용합니다.

검정 통계량은 모든 n ( n - 1 ) / 2 가능한 쌍 사이의 음과 양의 차이의 차이입니다.엑스제이엑스나는(1)/2

에스=나는=11제이=나는+1에스(엑스제이엑스나는)

여기서 부호 함수 입니다. S이 사용될 수있다 계산할 τ 이 범위로 상관 유사하다 통계 - 1+ 1 의 부호가 음 또는 양의 값 추이 및 제안 τ이 추세의 기울기에 비례한다.에스()에스 τ1+1τ

τ=에스(1)/2

10에스에스

V아르 자형(에스)=118[(1)(2+5)=1(1)(2+5)]

미디엄케이

미디엄케이={에스1V아르 자형(에스)만약 에스>00만약 에스=0에스+1V아르 자형(에스)만약 에스<0

미디엄케이

  • 미디엄케이1α
  • 미디엄케이1α
  • |미디엄케이|1α/2

에서 이 스레드 는이 테스트를 구현하는 R 코드를 찾을 수 있습니다.

에스에스에스데이터에스순열에스데이터에스순열


RO 길버트 (1987). 환경 오염 모니터링을위한 통계적 방법. 윌리, 뉴욕.

Önöz, B., & Bayazit, M. (2003). 트렌드 감지를위한 통계 테스트의 힘. 터키 공학 및 환경 과학 저널, 27 (4), 247-251.


1

"값 사이의 강력한 시간적 (직렬) 자동 상관으로 인해 고전 선형 회귀를 사용할 수 없습니다"라는 문제가 있습니다. 실제로는 기회입니다. 나는 27 개의 값을 취하고 AUTOBOX를 사용하여 가능한 모델을 자동으로 결정할 수있는 소프트웨어 (개발에 도움이 됨)를 사용했습니다. 실제 / 적합 및 예측 그래프는 다음과 같습니다 여기에 이미지 설명을 입력하십시오. 잔차의 ACF는 여기에 잔차 그림이 있습니다 여기에 이미지 설명을 입력하십시오. 모델은 여기 여기에 이미지 설명을 입력하십시오와 여기 여기에 이미지 설명을 입력하십시오그리고 여기여기에 이미지 설명을 입력하십시오. 2 개의 계수는 추정 된 "트렌드"또는 일명 "드리프트", 즉 기간 대주기 차이가 -.596 인 데이터를 적절하게 설명합니다. 이는 모형이 계산 변수 1,2, ... 27을 예측 변수로 사용한 일종의 추세입니다. 데이터에서 이러한 종류의 트렌드를 제안한 경우 소프트웨어가 더 적합한 것으로 나타났습니다. 나는이 두 종류의 경향을 완전히 상세하게 / 반대했던 나의 이전 포스트를 찾으려고 노력할 것이다. 여기 에서 확률 적 추세 모델 식별초기 추세 또는 이상 값 감지

여기에 이미지 설명을 입력하십시오


2
오토 박스 예측은 최근 추세가 깨지는 1996 년, 1999 년, 2000 년, 2009 년의 모든 흥미로운 점을 놓치고 있습니다. 거의 1 년 단위의 위상 변화와 비슷합니다. 그런 점에서 아무것도 설명하지 않습니다.
Aksakal

데이터에 고도의 다항식을 적용하는 이전 권장 사항 (뺨에 혀)은 요청한 것을 수행합니다. 그러나 우리는 우리가 모델링에 대해 적합하지 않습니다. 잔차 그림은 일부 외부 / 알 수없는 요인으로 인해 오류 프로세스를 적절하게 설명하는 것 같습니다. 모든 모델이 잘못되었지만 일부 모델이 유용합니다. 이것은 유용한 모델이라고 생각하지만 더 잘 할 수 있다고 생각되면 결과를 게시하여 모두 배울 수 있습니다. 과거는 생략 된 변수에 대한 프록시이므로 ARIMA 모델에 대한 설명은 없습니다.
IrishStat

2
이 경우 통계와 관련이없는 것 같습니다. 전혀 흥미로운 통계 질문이 아닙니다. 명백한 추세가 있으며 OP는 현상의 물리학을 연구해야합니다. Autobox와 같은이 모델은 단순히 잘못된 방향으로 OP를 이끌고 있다고 생각합니다. 그들은 이미 명백한 것 이상으로 가치있는 것을 드러내지 않습니다.
Aksakal

문제는 분석이 사람의 눈을 대체 할 수 있는지의 여부입니다 ... 분석은 눈이 무엇을지지 하는지를 보여줍니다. 이것이 바로 눈에 보이는 것보다 더 많은 일을하기 위해 통계를 연습하는 이유입니다. AUTOBOX 솔루션은 OP를 올바른 방향, 즉 아래로이 끕니다. 귀하의 의견은 제 의견으로는 전혀 생산적이지는 않지만 이전에 (정치적으로) 통계 기반 실행 가능한 대안을 제공하십시오. 제 생각에는 이것은 매우 흥미로운 통계 질문이며 답이 필요합니다. 가능하면 하나를 제공하십시오.
IrishStat

1

Spearman의 순위 상관 계수 를 사용하여 데이터의 단조도를 결정할 수 있습니다 . 단조 증가 데이터의 양수 값과 단조 감소 데이터의 음수 값 (-1과 +1 사이)을 반환합니다. 나는 확실히 대부분의 소프트웨어 패키지는 상관 계수를 계산할 때의 p 값이 당신을 위해 할 것입니다 있지만, 위의 링크를 따라 섹션 거래의 중요성 테스트도 있습니다 (: 매트랩 예를 들어 [RHO,PVAL] = corr(...), R에 : cor.test(x,...))


0

직렬 자기 상관이 없기 때문에 OLS를 사용할 수 있습니다 (적어도 제공 한 샘플에서). Durbin-Watson 검정 통계량은 1.966 (≈2)입니다.

따라서 x1에 대한 음의 계수 추정치는 다음과 같이 말할 필요가 있습니다.

[특정 종]의 관측 횟수는 매년 약 1,000 씩 감소하고 있습니다.

또는

[확실한 종]의 관측 횟수는 매년 628 ~ 1,408 (95 % 신뢰도) 감소하고 있습니다.

이것은 종을 계산하는 방법론이 좋은 범위를 가지며 샘플에서 수년에 걸쳐 일관성이 있다고 가정합니다.

여기에 이미지 설명을 입력하십시오

이것은이 파이썬 코드로 생성되었습니다 (죄송합니다 .R을 가지고 있지 않습니다).

import numpy as np
import statsmodels.api as sm

y = [10,12,10,11,8,9,6,4,2,4]
x = np.arange(len(y))
x = sm.add_constant(x)

mod = sm.OLS(y, x)
result = mod.fit()
print(result.summary())

0

데이터의 출처를 아는 것은 매우 도움이 될 것입니다. 또한 그 값 my.ts이 음수인지 아닌지에 대한 정보 입니다.

그러나 일정한 선형 추세를 보지 않고 플롯을 빠르게 살펴보면 시계열이 고정적이지 않으므로 통합 된 것이 좋습니다 . 예를 들어, 주가 도 통합되지만 주식 수익률은 더 이상 0이 아닌 변동합니다.

이 가설은 Augmented Dickey Fuller Test를 사용하여 테스트 할 수도 있습니다.

require(tseries)
adf.test(my.ts)

Augmented Dickey-Fuller Test
Dickey-Fuller = -2.9557, Lag order = 2, p-value = 0.7727
alternative hypothesis: stationary

p- 값이 0.05보다 낮지 않으면 공정이 정지했다는 증거는 없습니다.

데이터를 고정하려면 차이를 만들어야합니다.

diff.ts <- diff(my.ts)
plot(diff.ts)

여기에 이미지 설명을 입력하십시오

이제 데이터는 더 이상 추세를 나타내지 않으며 , 자동 회귀 항의 차수 2 (을 사용 acf(diff.ts)) 만 찾을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.