시계열의 예측 가능성을 결정하는 방법은 무엇입니까?


10

예측자가 직면 한 중요한 문제 중 하나는 주어진 시리즈 예측할 있는지 여부입니다.

필자 는 주어진 시계열을 결정하기 위해 대략적인 엔트로피 (ApEn) 를 상대적인 척도로 사용하는 Peter Catt의 " 우선 순위 예측 지표의 엔트로피 "라는 기사를 우연히 발견했습니다 .

기사는 말합니다

"작은 ApEn 값은 데이터 집합 뒤에 유사한 데이터 (규칙 성)가 올 확률이 높음을 나타냅니다. 반대로 ApEn 값이 클수록 유사한 데이터가 반복 될 가능성이 낮음을 나타냅니다 (불규칙성). , 무작위성 및 시스템 복잡성. "

그리고 ApEn을 계산하기위한 수학 공식이 이어집니다. 이는 상대적 의미에서 예측 가능성을 평가하는 데 사용할 수있는 수치를 제공하기 때문에 흥미로운 접근법입니다. 근사 엔트로피가 무엇을 의미하는지 모르겠습니다. 그것에 대해 더 많이 읽고 있습니다.

라는 패키지가 pracmaR그건 당신이 ApEn을 계산할 수는. 설명을 위해 3 가지 시계열을 사용하고 ApEn 수를 계산했습니다.

  1. 시리즈 1 : 유명한 AirPassenger 시계열은 결정 론적이며 쉽게 예측할 수 있어야합니다.
  2. 시리즈 2 : Sunspot 시계열 – 정의가 잘되어 있지만 시리즈 1보다 예측하기 어려워 야합니다.
  3. 시리즈 3 : 난수이 시리즈 를 예측할 방법이 없습니다.

따라서 ApEn을 계산하면 Series 1은 Series 2보다 작아야하며 Series 3은 매우 작아야합니다.

다음은 세 시리즈 모두에 대한 ApEn을 계산하는 R 스 니펫입니다.

library("pracma")
> series1 <- approx_entropy(AirPassengers)
> series1
[1] 0.5157758
> series2 <- approx_entropy(sunspot.year)
> series2
[1] 0.762243
> series3 <- approx_entropy(rnorm(1:30))
> series3
[1] 0.1529609

이것은 내가 기대 한 것이 아닙니다. 무작위 시리즈는 잘 정의 된 AirPassenger 시리즈보다 번호가 적습니다. 난수를 100으로 늘려도 잘 정의 된 시리즈 2 / Sunspot.yealry 시리즈보다 적은 다음을 얻습니다.

> series3 <- approx_entropy(rnorm(1:100))
> series3
[1] 0.747275

아래는 내 질문입니다 :

  1. ApEn ( mr) 을 계산할 때 2 개의 매개 변수가 있습니까? 그들을 결정하는 방법. R위 코드 에서 사용 된 기본값입니다 .
  2. 내가 잘못하고있는 것은 ApEn이 sunspot.yearly와 같이 잘 정의 된 시리즈와 비교하여 임의의 숫자보다 낮다는 것을 잘못 보여줍니다.
  3. 시리즈의 계절을 줄이거 나 추론하고 ApEn을 추정해야합니다. 그러나 저자는 ApEn을 시리즈에 직접 적용했습니다.
  4. 시리즈가 예측 가능한지를 판단하는 다른 방법이 있습니까?

이 기사에서 언급했듯이 근사 엔트로피는 짧은 시계열, N <200에서 사용해서는 안됩니다. 더 중요한 것은 기사가 엔트로피에 근접하지 않고 샘플 엔트로피를 사용한다는 것입니다. Pracma는 둘 다 포함합니다. 감사합니다

설명 변수를 설명합니까? 예를 들어, 회사의 계정 손실을 예측하는 경우 마케팅 지출과 관련이있을 수 있으며 지출은 예측 가능하며 실제로 몇 개월이 소요될 것으로 예상됩니다. 제안 된 접근 방식에서이를 어떻게 설명 할 것인가?
Aksakal

@ Aksakal, 설명 변수가 없습니다. 예측 가능성을 평가하기위한 객관적인 측정이 필요한 대규모 일 변량 (설명 변수 없음) 시계열 예측을 찾고있었습니다. 또한 많은 경우에 일 변량 예측은 설명 변수로 작성된 모형보다 훨씬 정확합니다.
예측 자


1
내 생각에는 이것이 제안 된 복제본보다 훨씬 좁은 질문이라는 것입니다. 투표는 공개하지만 OP는 두 가지를 혼동하지 않기 위해보다 구체적인 제목을 고려할 것을 제안합니다. " 근사 엔트로피를 사용하여 시계열의 예측 가능성을 결정하는 방법은 무엇입니까?"
Sean Easter

답변:


7

파라미터 mr의 계산에 관여 근사 엔트로피 (ApEn) 시계열이있는 윈도우 (시퀀스) 길이공차 (필터 값) 에 대응. 사실의 관점에서 m, r뿐만 아니라 N(데이터 요소의 수), ApEn이 되는 정의 "길이의 반복되는 패턴의 상대 빈도의 자연 로그로 m길이의 것과 비교하여 m + 1"(Balasis, Daglis, Anastasiadis 및 Eftaxias 2011 , p. 215) :

ApEn(m,r,N)=Φm(r)Φm+1(r),

where 

Φm(r)=ΣilnCim(r)/(Nm+1)

따라서 공차를 변경하면 시계열의 엔트로피를 결정 r하는 (시간적) 세분성 을 제어 할 수 있습니다 . 그럼에도 불구하고 패키지의 엔트로피 함수 호출 에서 매개 변수 mr매개 변수 모두에 대한 기본값을 사용하면 pracma정상적으로 작동합니다. 세 시계열 모두에 대해 올바른 엔트로피 값 관계 (보다 잘 정의 된 시리즈의 경우 낮은 엔트로피, 더 많은 무작위 데이터의 경우 높은 엔트로피) 를 확인하기 위해 수행해야하는 유일한 수정 은 무작위 데이터 벡터의 길이늘리는 것입니다 .

 library(pracma)
 set.seed(10)
 all.series <- list(series1 = AirPassengers,
                    series2 = sunspot.year,
                    series3 = rnorm(500)) # <== size increased
 sapply(all.series, approx_entropy)
  series1   series2   series3 
  0.5157758 0.7622430 1.4741971 

결과는 예상 한대로 – 변동의 예측 가능성이 가장 많이 결정된 것에서 series1가장 무작위로 감소함에 series 3따라 엔트로피가 증가 ApEn(series1) < ApEn(series2) < ApEn(series3)합니다.

다른 예측 가능성 측정 과 관련하여 평균 절대 오차 (MASE) 를 확인하고자 할 수 있습니다 . 자세한 내용 은 이 토론 을 참조하십시오. 예측 가능한 성분 분석 은 시계열의 예측 가능성을 결정 하는 흥미롭고 새로운 접근 방법 인 것 같습니다 . 그리고 아마도 ForeCA 패키지도 있습니다 .R

library(ForeCA)
sapply(all.series,
       Omega, spectrum.control = list(method = "wosa"))
 series1   series2   series3 
 41.239218 25.333105  1.171738 

여기서 은 이고 인 예측 척도입니다 .Ω ( w h i t e n o i s e ) = 0 % Ω ( s i n u s o i d ) = 100 %Ω[0,1]Ω(whitenoise)=0%Ω(sinusoid)=100%

참고 문헌

Balasis, G., Daglis, IA, Anastasiadis, A. & Eftaxias, K. (2011). 엔트로피 개념과 재조정 된 범위 분석을 사용하여 Dst Time sSeries에서 동적 복잡성 변화 감지. W. Liu and M. Fujimoto (Eds.) , IAGA Special Sopron Book, Series 3, 211. doi : 10.1007 / 978-94-007-0501-2_12. 봄 병아리. http://members.noa.gr/anastasi/papers/B29.pdf 에서 검색 함

Georg M. Goerg (2013) : 예측 가능한 구성 요소 분석. JMLR, W & CP (2) 2013 : 64-72. http://machinelearning.wustl.edu/mlpapers/papers/goerg13


또한 pracma::sample_entropy()기능 을 테스트 하고 해당 시나리오에서 시계열에 걸쳐 올바른 결과 관계를 유지합니다.
Aleksandr Blekh

@forecaster : 천만에요.
Aleksandr Blekh

1
실험 자료를 사용하여 예측 가능성을 측정하는 이 문서 notsoirrational.files.wordpress.com/2015/04/schulz15.pdf 도 참조하십시오 . 이 글은이 글에서 언급 한 ForeCA 작업과도 관련이 있습니다.
Georg M. Goerg

@ GeorgM.Goerg : 제안, 링크 및 편집에 감사드립니다.
Aleksandr Blekh 오전

@forecaster : 나의 기쁨.
Aleksandr Blekh

0

모든 시계열은 추세, 계절성 및 임의의 세 가지 구성 요소로 구성됩니다. 데이터가 강한 추세를 보이거나 계절이 매우 많으면 예측이 비교적 쉽습니다. 데이터가 대부분 무작위이면 정의에 따라 아무것도 예측할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.