불균일 간격 시계열 모델링


12

불규칙한 간격으로 1 년 동안 샘플링 된 연속 변수가 있습니다. 어떤 날에는 시간당 하나 이상의 관측치가 있지만 다른 기간에는 며칠 동안 아무것도 없습니다. 따라서 몇 달 (예 : 10 월)은 샘플링이 많고 다른 달은 샘플링되지 않기 때문에 시계열에서 패턴을 감지하기가 특히 어렵습니다.

여기에 이미지 설명을 입력하십시오

내 질문은이 시계열을 모델링하는 가장 좋은 방법은 무엇입니까?

  • ARMA와 같은 대부분의 시계열 분석 기술에는 고정 주파수가 필요하다고 생각합니다. 일정한 샘플을 얻거나 매우 상세한 데이터의 하위 집합을 선택하기 위해 데이터를 집계 할 수 있습니다. 두 옵션 모두 원래 데이터 세트에서 일부 패턴이 누락되어 고유 한 패턴이 드러날 수 있습니다.
  • 시리즈를 사이클로 분해하는 대신 모델에 전체 데이터 세트를 공급하고 패턴을 선택할 것으로 기대할 수 있습니다. 예를 들어, 시간, 요일 및 월을 범주 형 변수로 변환하고 좋은 결과로 다중 회귀 분석을 시도했습니다 (R2 = 0.71).

ANN과 같은 기계 학습 기술이 고르지 않은 시계열에서 이러한 패턴을 선택할 수 있다는 아이디어가 있지만 누군가 시도해 보았는지 궁금해하고 신경망에서 시간 패턴을 표현하는 가장 좋은 방법에 대한 조언을 제공 할 수 있습니다.

답변:


4

ARIMA, 지수 평활 (Exponential Smoothing) 등은 실제로 균등 한 샘플 포인트가 필요합니다. 글을 쓰면서 데이터를 버켓으로 만들 수 있지만 (일로) 글을 쓰면 정보를 잃게됩니다. 또한 결 측값으로 끝날 수 있으므로 ARIMA는 결 측값 처리에 적합하지 않기 때문에 대치해야합니다.

다시 작성하는 한 가지 대안은 시간 인형을 회귀 프레임 워크에 제공하는 것입니다. 나는 개인적으로 범주 형 인형을 좋아하지 않습니다. 왜냐하면 이것은 이웃 범주 사이의 급격한 컷오프를 의미하기 때문입니다. 이것은 일반적으로 그리 자연스럽지 않습니다. 그래서 나는 다른주기를 가진주기적인 스플라인을 보려고합니다. 이 접근 방식은 고르지 않은 샘플링과 결 측값을 처리 할 수 ​​있다는 이점이 있습니다.

R2

마지막으로, 모델링을 과도하게 사용하지 마십시오. 그냥 데이터를 째려에서, 분명하다 일이 8 월과 9 월 / 10 월에 일일에 6 월에 일어났다. 먼저이 내용이 무엇 인지 확인하고이를 설명 변수 (원하는 경우 ARIMAX에 포함 할 수 있음)와 같이 모델에 포함시키는 것이 좋습니다. 일어난 일은 분명히 계절성이 아닙니다.


0

질문과 @Stephan Kolassa에서 좋은 답변 ARIMA 특히 신경 네트워크를 논의하기 때문에, 난 당신이 줄 수 있음을 언급하고 싶었 forecast에서 패키지를 R갈 - 그것은이 nnetar기능이 1 숨겨진 층 열차 간단한 피드 포워드 신경망과 지연 입력.

어쩌면 당신은 다음 라인을 따라 무언가를 시도 할 수 있습니다 :

  • 요일, 요일, 요일 / 주말 등과 같은 각 관측치에 대한 많은 기능을 추출합니다. (날짜를 시간의 질문에 잠재적 의존성으로 언급하기 때문에 내가 이것을 포함시킨 이유입니다. 관심있는 변수에 영향을 줄 수 있습니다).
  • 관심있는 변수의 지연된 값과 날짜 및 시간 정보 (예 : 요일 등)가 입력이됩니다. xreg예를 들어 날짜 시간 변수를 외부 회귀 변수 ( ) 로 포함 할 수 있습니다 .

이러한 입력을 기반으로 관심있는 var의 미래 가치를 예측하십시오. 또한 예측하려는 각 값의 날에 관측 된 평균 및 분산 / 편차를 포함하는 것을 생각할 수도 있습니다. 즉, 예를 들어 ARIMA를 사용하여 예상 평균 및 분산을 먼저 예측 한 다음 위에서 언급 한 접근 방식에 추가 입력으로 추가해야합니다.

hth.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.