두 시계열을 통계적으로 비교하는 방법은 무엇입니까?


43

아래 그림에 표시된 두 개의 시계열이 있습니다.

시계열도

이 그림은 두 시계열의 전체 세부 사항을 보여 주지만 필요한 경우 일치 관찰로 쉽게 줄일 수 있습니다.

내 질문은 : 시계열 간의 차이를 평가하기 위해 어떤 통계 방법을 사용할 수 있습니까?

나는 이것이 상당히 광범위하고 모호한 질문이라는 것을 알고 있지만, 여기에서 많은 입문 자료를 찾을 수없는 것 같습니다. 내가 볼 수 있듯이, 평가해야 할 두 가지 뚜렷한 점이 있습니다.

1. 값이 동일합니까?

2. 트렌드가 동일합니까?

이러한 질문을 평가하기 위해 어떤 종류의 통계 테스트를 제안 하시겠습니까? 질문 1의 경우 분명히 다른 데이터 세트의 평균을 평가하고 분포에서 중요한 차이를 찾을 수 있지만 데이터의 시계열 특성을 고려하여이를 수행하는 방법이 있습니까?

질문 2-Mann-Kendall 테스트와 같이 두 추세의 유사성을 찾는 것이 있습니까? Mann-Kendall 테스트를 통해 데이터 세트와 비교를 모두 수행 할 수는 있지만 이것이 올바른 방법인지 또는 더 좋은 방법이 있는지 모르겠습니다.

R 에서이 모든 작업을 수행하고 있으므로 테스트에 R 패키지가 있다고 제안하면 알려주십시오.


9
음모는이 시리즈들 사이에서 결정적인 차이가 무엇인지 모호하게 나타납니다 : 그것들은 다른 주파수에서 샘플링 될 수 있습니다. 검은 선 (Aeronet)은 약 20 회만 샘플링되고 빨간 선 (Visibility)은 수백 번 이상 샘플링 된 것 같습니다. 또 다른 중요한 요소는 샘플링의 규칙 성 또는 그 부족 일 수 있습니다. Aeronet 관측 사이의 시간은 약간 다르게 보입니다. 일반적으로 연결선 을 지우고 실제 데이터에 해당하는 점만 표시하여 시청자가 이러한 것을 시각적으로 확인할 수 있습니다.
whuber

간격이 일정하지 않은 시계열 분석을위한 Python 라이브러리는 다음과 같습니다 .
kjetil b halvorsen

답변:


27

다른 사람들이 언급했듯이 공통 측정 빈도 (예 : 관측 간격)가 필요합니다. 이를 통해 각 시리즈를 개별적으로 설명하는 공통 모델을 식별합니다. 이는 가능한 레벨 시프트가있는 ARIMA 모델 또는 다중 추세 회귀 모델이거나 메모리 (ARIMA) 및 더미 변수를 모두 통합 한 복합 모델 일 수 있습니다. 이 공통 모델은 두 시리즈 각각에 대해 전 세계적으로 개별적으로 추정 한 다음 공통 모수 세트의 가설을 테스트하기 위해 F 테스트를 구성 할 수 있습니다.


1
글쎄, 당신은 두 시리즈에 대해 동일한 주파수를 가질 필요는 없다. 다른 경우에는 소프트웨어가 거의 없지만 traces.readthedocs.io/en/latest를 참조하십시오 . 많은 ... 천문학 저널과 금융 및 지구 물리학에서 다른 경우에 대해 pubslihed에 심판을 볼 수있는 것처럼 보인다 en.wikipedia.org/wiki/Unevenly_spaced_time_series
할보 르센 kjetil B

12

lmtest 라이브러리 grangertest()에서를 고려하십시오 .

한 시계열이 다른 시계열을 예측하는 데 유용한 지 확인하는 테스트입니다.

시작하기위한 몇 가지 참조 :

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/Kgranger.pdf

http://en.wikipedia.org/wiki/Granger_causality


1
그의 샘플 크기는 Granger에 맞출 필요가있는 매개 변수의 양에 비해 <10 개의 데이터 포인트로 너무 작습니다.
Jase

1
@ fionn, 답변의 링크가 죽었습니다. 답변을 업데이트 할 수 있습니까?
Davor Josipovic

0

이 문제가 발생했습니다. 첫 번째 대답은 차이점을 시각적으로 볼 수 있도록 두 세트에 동일한 척도를 (시간 단위) 플롯하는 것입니다. 이 작업을 수행했으며 눈에 띄는 차이점이 있음을 쉽게 알 수 있습니다. 다음 단계는 간단한 상관 관계 분석을 사용하고 상관 계수 (r)를 사용하여 얼마나 관련성이 있는지 확인하는 것입니다. 만약 r이 작다면 당신의 결론은 그것들이 약하게 관련되어 있고 따라서 r이 두 시리즈 사이의 좋은 비교를 제안한다면 바람직한 비교와 더 큰 값이 없다는 것입니다. 상관 관계가 좋은 세 번째 단계는 r의 통계적 유의성을 테스트하는 것입니다. 여기서 두 계열이 정규 분포 (무 가설)인지 아닌지 (대안 가설) 가정하는 Shapiro Welch 검정을 사용할 수 있습니다. 당신이 할 수있는 다른 테스트가 있지만 내 대답이 도움이되기를 바랍니다.


1
시계열을 비교할 때는 자동 상관이 가능하고 시계열 모델에 적합 할 수 있습니다. ARIMA 모델과 같이 유사한 정도를 결정하는 데 도움이됩니다. 동일한 확률 론적 과정의 두 가지 실현이 그것들을 플로팅 할 때 반드시 동일하게 보이지는 않습니다.
Michael Chernick

-2

polyfit을 사용하여 시계열 신호에 직선을 맞 춥니 다. 그런 다음 두 줄에 대해 RMSE (root-mean-square-error)를 계산하십시오. 레드 라인에 대해 얻은 값은 회색 라인에 대해 얻은 값보다 훨씬 작습니다.

또한 일반적인 빈도로 측정하십시오.


2
Cross Validated에 오신 것을 환영합니다. 첫 번째 답변에 감사드립니다! 그러나 나는 당신이 질문에 직접 대답하지 않는 것에 대해 걱정하고 있습니다-제안 된 접근 방식이 값과 추세가 비슷한 지 여부를 주장하는 데 정확히 어떻게 도움이 될까요?
Martin Modrák
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.