시계열 이상 탐지 알고리즘


24

저는 현재 R의 트위터 AnomalyDetection을 사용하고 있습니다 : https://github.com/twitter/AnomalyDetection . 이 알고리즘은 계절별 데이터에 대한 시계열 이상 감지 기능을 제공합니다.

질문 : 이와 비슷한 다른 알고리즘이 있습니까 (계절을 제어하는 ​​것은 중요하지 않음)?

최고의 데이터 / 앙상블을 선택할 수 있도록 내 데이터에서 가능한 많은 시계열 알고리즘을 득점하려고합니다.

답변:


16

트위터 알고리즘은

Rosner, B., (1983 년 5 월), "일반화 된 ESD 다수-이상적 절차에 대한 백분율", Technometrics, 25 (2), pp. 165-172

1983 년 이후 많은 기술과 발전이있었습니다!. 내부 데이터를 테스트 한 결과 Twitter의 이상 징후가 확실한 특이 치를 식별하지 못합니다. 시계열의 특이 치를 테스트하기 위해 다른 접근법을 사용할 것입니다. 내가 찾은 최고 는 SAS / SPSS / Autobox 및 SCA 소프트웨어에서 구현되는 Tsay의 이상치 탐지 절차입니다. 모두 상용 시스템입니다. tsoutliers 패키지 도 있지만 arima효율적으로 작동하려면 모델 사양이 필요합니다 . auto.arima최적화 및 모델 선택과 관련하여 기본값에 문제가 있습니다 .

Tsay의 기사는 시계열에서 이상치 탐지에 대한 중요한 작업입니다. 예측 연구 분야의 주요 저널 International Journal of Forecasting 은 Tsay의 기사가 위에 링크 된 기사에서 가장 많이 인용 된 작품이자 가장 영향력있는 논문 중 하나라고 언급했습니다 (아래 참조). 예측 소프트웨어 (특히 오픈 소스 소프트웨어)에서이 중요한 작업과 기타 이상치 탐지 알고리즘의 확산은 드물다.

여기에 이미지 설명을 입력하십시오


14

2017 년 현재 R의 이상 탐지 옵션은 다음과 같습니다.

트위터의 이상 탐지 패키지

  • 계절 하이브리드 ESD (SH-ESD)를 사용하여 작동합니다.
  • 이상 감지를위한 일반화 된 ESD 테스트 를 기반으로합니다 .
  • 국소 및 전역 이상을 모두 탐지 할 수 있습니다.
  • 시계열 분해 및 강력한 통계 지표 사용 (예 : ESD와의 중앙값)
  • 장시간 시계열에 대해 조각 별 근사값을 사용합니다.
  • 타임 스탬프를 사용할 수없는 경우도 있습니다.
  • 변칙의 방향, 관심있는 창을 지정하고 조각 별 근사치를 토글하고 시각 자료를 지원할 수 있습니다.

anomalyDetection 패키지 (Twitter와 다름)

  • 마할 라 노비스 거리, 인자 분석, 혼의 평행 분석, 블록 검사, 주요 성분 분석을 포함한 다양한 접근법;
  • 결과를 처리하는 방법이 있습니다.

tsoutliers 패키지

  • Chen 및 Liu 절차에 따라 시계열에서 특이 치를 탐지합니다 ( https://www.jstor.org/stable/2290724?seq=1#page_scan_tab_contents ).
  • 특이 치는 모델 매개 변수의 '오염되지 않은'추정치, 다중 선형 회귀를 사용하여 추정 된 이상치 효과를 기반으로하며 모형 모수와 효과를 함께 추정합니다.
  • 혁신적인 특이 치, 추가 특이 치, 레벨 시프트, 임시 변경 및 계절 레벨 시프트를 고려합니다.

변칙 -acm

  • 각 시계열에서 특징 벡터를 계산 (예 : 지연 상관 관계, 계절 강도, 스펙트럼 엔트로피 포함) 한 다음 특징에 강력한 주성분 분해를 적용하고 마지막으로 첫 번째 두 주성분에 다양한 이변 량 이상치 검출 방법을 적용합니다.
  • 특징 벡터를 기반으로 가장 특이한 계열을 식별 할 수 있습니다.
  • 패키지에는 Yahoo의 실제 데이터와 합성 데이터 세트가 모두 포함되어 있습니다.

무지개 패키지

  • 백 플롯 및 박스 플롯을 사용합니다.
  • 깊이 또는 밀도가 가장 낮은 특이 치를 식별합니다.

kmodR 패키지

  • Chawla와 Gionis가 2013 년에 제안한 k- 평균 구현을 사용합니다 ( http://epubs.siam.org/doi/pdf/10.1137/1.9781611972832.21 ).
  • 표준 k- 평균보다 (잠재적으로) 더 단단한 클러스터를 생성하고 다차원 공간에서 저렴하게 이상 값을 찾는 데 유용합니다.

세탁기 방법

강력한 통계 방법에 대한 CRAN 작업보기

  • 특이 치를 탐지하기 위해 강력한 통계 방법을 사용하기위한 다양한 접근 방식.

2018 수정

양극화 : 깔끔한 이상 감지


시계열 데이터에 사용할 수 있지만 계절성이없는 제안은 무엇입니까? 이 경우 트위터 패키지를 사용할 수 있습니까?
MikeHuber

Twitter 패키지는 로컬 및 글로벌 이상을 모두 처리합니다. 문서에서 말했듯이 "전역 이상은 일반적으로 예상 계절보다 위 또는 아래로 확장되므로 계절 성과 기본 추세의 영향을받지 않습니다." 따라서 Twitter 패키지를 사용하면 계절성이없는 시계열의 이상을 잠재적으로 감지 할 수 있습니다. blog.twitter.com/engineering/en_us/a/2015/…
사이버 네틱

8

내가 당신을 도울 수있는 몇 가지 소스 건너했지만 데이터를 통해 R 스크립트를 실행 그들이 쉽게 / 편리으로하지 않습니다 : - 그록가 오픈 소스 화 자신이 NuPIC 이상 탐지 등 많은 것들에 사용되는 플랫폼을 . - 넷플릭스의 아틀라스 프로젝트는 곧 오픈 소스 국외자 / 이상 탐지 도구를 출시 할 예정이다. - Prelert은 서버 측 응용 프로그램으로 제공 변칙 탐지 엔진을 가지고있다. 시험판은 사용자의 요구를 충족시킬 수있는 제한된 사용량을 제공합니다.

또는 Insignum이라는 회사 는 시계열 데이터를 수집하고 완전 자동화 된 방식으로 이상을 탐지하는 베타 버전의 제품을 가지고 있으며 이상이 감지되면 전자 메일을 통해 경고를 수신합니다. 에 손을 뻗어 트위터링크드 인 과 좀 더 말씀 드리겠습니다.


3

Autobox (내 회사)는 이상치 탐지 기능을 제공합니다. 트위터의 알고리즘은 큰 특이 치를 얻지 만 Autobox 와 비교하여 작은 것을 그리워합니다 .

실행하는 데 시간이 오래 걸리지 만 결과는 작은 특이 치를 찾는 데 더 좋으며 계절적 특성도 특이 치로 변경하는 것이 좋습니다. 아래는 14,398 개의 원래 관측치에 대한 처음 8,560 개의 관측치를 사용하여 79 개의 특이 치를 찾는 모델입니다. 표준 버전은 최대 10,000 개의 관측치에 도달하지만 더 많은 수정이 가능하지만 특이 치를 식별하고 이에 응답하려고 할 때 많은 양의 데이터를 보유해야하는 실제적인 이유는 없습니다.

우리는 Tsay가 특이 치, 레벨 시프트 및 분산 변경에 대한 작업과 매개 변수 변경에 대한 Chow의 작업과 계절 변화를 감지하는 자체 작업에 영향을 받았습니다.

30 일 평가판을 다운로드하여 Twitter 예제 데이터에로드하고 빈도를 60으로 지정하고 설치 폴더 (noparcon.afs, novarcon.afs, notrend.afs)에 3 개의 트리거 파일을 저장 한 다음 stepupde라는 파일을 작성하십시오. 100을 가진 afs.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.