시계열 데이터에서 이상 값을 찾거나 감지하면 이상 값을 수정하는 방법을 찾으려고합니다. R의 nnetar와 같은 일부 방법은 이상 치가 큰 시계열에 대해 약간의 오류를 발생시킵니다. 이미 결 측값을 수정했지만 이상 치가 여전히 내 예측을 손상시키고 있습니다 ...
시계열 데이터에서 이상 값을 찾거나 감지하면 이상 값을 수정하는 방법을 찾으려고합니다. R의 nnetar와 같은 일부 방법은 이상 치가 큰 시계열에 대해 약간의 오류를 발생시킵니다. 이미 결 측값을 수정했지만 이상 치가 여전히 내 예측을 손상시키고 있습니다 ...
답변:
예측 패키지에는 R을 식별하고 재귀화하기위한 기능이 추가되었습니다. (결 측값도 처리합니다.) 이미 예측 패키지를 사용하고 있으므로 편리한 솔루션 일 수 있습니다. 예를 들면 다음과 같습니다.
fit <- nnetar(tsclean(x))
이 tsclean()
기능은 loess (비 계절 계열)를 사용하는 강력한 추세 또는 STL (계절 계열)을 사용하는 강력한 추세 및 계절 구성 요소에 적합합니다. 잔차가 계산되고 다음 경계가 계산됩니다.
Q0.1Q0.9
특이 치는 잔차가 보다 크거나 보다 작은 점으로 식별됩니다 .L
비 계절 시계열의 경우 특이 치는 선형 보간으로 대체됩니다. 계절 시계열의 경우 STL 피팅의 계절 성분이 제거되고 계절 조정 된 계열이 선형 보간되어 특이 치를 대체하여 결과의 계절을 재조정합니다.
ARIMA 모델을 식별 할 때 펄스 / 레벨 이동 / 계절 펄스 및 / 또는 로컬 시간 추세를 동시에 식별해야합니다. http://www.ebay.com/ctg/Time-Series-Analysis-Univariate-and-Multivariate-Methods-David-P-Reilly-and-William-Wei-1999 에서 중재 탐지 절차에 대한 자료를 얻을 수 있습니다 . - / 85697 및 http://www.unc.edu/~jbhill/tsay.pdf . 내가 본 무료 소프트웨어가 원하는대로 유용한 결과를 얻으려면 SAS / SPSS / AUTOBOX와 같은 상용 소프트웨어를 찾아야 할 수도 있습니다. 통과하면서 나는이 분야의 주요 기술 향상을 AUTOBOX에 기여했습니다.
편집하다:
더 나은 방법은 엄격한 ARIMA 방법과 중재 탐지 절차를 사용하여 특이 치를 식별하여 강력한 ARIMA 매개 변수와 적절한 예측을 이끌어내는 것입니다. 이제 펄스 효과가없는 재 샘플링 잔차를 통합 한 시뮬레이션 예측 개발을 고려하십시오. 이러한 방식으로 추정 된 모형 모수가 모집단 값이라고 가정하지 않는 예측에 대해 두 모델 모두에서 최상의 모형과보다 현실적인 불확실성 진술을 얻을 수 있습니다.
@Aksakal에 동의합니다. 특이 치를 제거하는 대신, 특이 치를 처리하기 위해 일종의 통계 절차를 사용하는 것이 더 나은 방법입니다. 나는 당신이 당신의 데이터를 winsorise 제안합니다. 제대로 구현하면 윈저 마이징이 특이 치에 비해 상대적으로 강력 할 수 있습니다. 이 페이지 ( http://www.r-bloggers.com/winsorization/) 에는 winsorisation을 구현하는 R 코드가 있습니다. 데이터를 소싱하는 것을 고려한다면 분포의 꼬리에 대해 신중하게 생각해야합니다. 특이 치가 극도로 낮을 것으로 예상되거나 극도로 높거나 둘 다일 것으로 예상됩니다. 이는 예를 들어 5 % 또는 10 % 및 / 또는 95 % 또는 99 % 수준에서 승리 할 수 있는지 여부에 영향을줍니다.
예측 상황에서 특이 치를 제거하는 것은 매우 위험합니다. 예를 들어 식료품 점의 판매를 예측하고 있습니다. 이웃 건물에 가스 폭발이 발생하여 며칠 동안 상점을 폐쇄했다고 가정 해 봅시다. 10 년 만에 가게가 문을 닫은 것은 이번이 유일했다. 따라서 시계열을 가져와 특이 치를 감지하고 제거하고 예측합니다. 앞으로는 이런 일이 일어나지 않을 것이라고 조용히 가정했습니다. 실제로, 관측 된 분산을 압축하면 계수 분산이 줄어 들었습니다. 따라서 예측에 대한 신뢰 구간을 표시하면 특이 치를 제거하지 않은 경우보다 신뢰 구간이 좁아집니다.
물론 이상 값을 유지하고 평소대로 진행할 수 있지만 이는 좋은 접근 방법이 아닙니다. 그 이유는이 특이 치가 계수를 왜곡하기 때문입니다.
이 경우 더 나은 접근 방식은 뚱뚱한 꼬리를 가진 오류 분포, 아마도 안정적인 분포를 허용하는 것입니다. 이 경우 특이 치가 계수를 너무 많이 왜곡하지 않습니다. 특이 치가 제거 된 계수에 가깝습니다. 그러나 이상 값은 오차 분포, 오차 분산에 표시됩니다. 기본적으로 더 넓은 예측 신뢰 구간을 얻게됩니다.
신뢰 구간은 매우 중요한 정보를 전달합니다. 이번 달에 판매가 1,000,000 $ 이 될 것으로 예상 하지만 5,100 %가 될 확률이 5 %라면 지출, 현금 관리 등에 대한 결정에 영향을 미칩니다.
특이 치가 제거 된 모형을 사용하여 예측을 수행하는 것은 미래에 특이 치가 발생할 확률과 실제로 발생하는 효과의 예상 분포에 따라 달라집니다. 이것을 훈련시키기에 훈련 데이터가 충분합니까? 베이지안 접근이 도움이 될 것입니다 ...