시계열 및 이상 탐지


15

시계열의 이상을 탐지하기위한 알고리즘을 설정하고 싶습니다.이를 위해 클러스터링을 사용할 계획입니다.

  • 원시 시계열 데이터가 아닌 클러스터링에 거리 매트릭스를 사용해야하는 이유는 무엇입니까?,

  • 이상을 탐지하기 위해 DBscan과 같은 알고리즘 인 밀도 기반 클러스터링을 사용할 것이므로이 경우에도 효과가 있습니까? 스트리밍 데이터 용 온라인 버전이 있습니까?

  • 이상이 발생하기 전에 이상을 감지하고 싶습니다. ARIMA (추세 감지 알고리즘)를 사용하는 것이 좋은 선택입니까?


올바르게 작성된 DBSCAN입니다. 약어입니다. 당신이하려는 일이 확실하지 않습니다. 시계열 또는 전체 변칙 시계열에서 이상을 탐지합니다.
Quit--Anony-Mousse를 가지고 있습니다

예, DBSCAN, 정확히! 내가하려고하는 것은 시계열 데이터 세트의 온라인 탐지 이상입니다! 그래서! 어떤 요청? 감사합니다
napsterockoeur

시계열 성장 또는 추가 시리즈 추가 와 같은 온라인 ? 다시 말하지만, 이것들은 매우 다르며, 당신이 의미하는 바를 분명히해야합니다.
종료-익명-무스

온라인 (스트림), 센서에서 나오는 시간 시리즈의 증가를 의미합니다. 1 시간마다 데이터 세트 (벡터)가 수신됩니다.
napsterockoeur

답변:


12

첫 번째 질문과 관련하여 시계열에서 클러스터링을 수행하기 전에이 유명한 기사 (시계열 하위 시퀀스의 클러스터링은 의미가 없음) 를 읽는 것이 좋습니다 . 명확하게 작성되었으며 피해야 할 많은 함정을 보여줍니다.


6

이상 감지 또는 "중재 감지"는 GCTiao와 다른 사람들에 의해지지되었습니다. 과학은 반복되는 패턴을 찾는 것입니다. 이상을 탐지하는 것은 반복되는 패턴을 따르지 않는 값을 식별하는 것입니다. 우리는 뉴턴으로부터 "자연의 방법이 자신의 편차를 더 쉽게 알아 차릴 수 있다는 것을 알고, 반면에 자신의 편차를 아는 사람은 자신의 방식을 더 정확하게 설명 할 것입니다." 현재 규칙이 실패한 시점을 관찰하여 규칙을 학습합니다. 시계열 1,9,1,9,1,9,5,9를 고려하십시오. 이상을 식별하려면 패턴이 있어야합니다. "5"는 "14"만큼 비정상입니다. 패턴을 식별하기 위해 단순히 ARIMA를 사용하고이 경우 "이상"이 분명해집니다. 다른 소프트웨어 / 접근 방식을 시도하고 1,0의 ARIMA 모델을 제안하는 모델, 계수가 -1.0 인 0 Google / 검색 절차를 사용하여 "자동 arima"또는 "자동 중재 감지"를 찾으십시오. 당신이 그것을 지불하는 가치가 있기 때문에 무료 물건에 실망 할 수 있습니다. 시계열 배경이 많고 낭비하는 데 몇 년이 걸리면 직접 작성하는 것이 흥미로울 수 있습니다. 거리 기반 방법에는 심각한 제한이 있습니다.http://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf


너무 많은 IrishStat 선생님에게 감사합니다. u로 완전히 괜찮습니다. 거리 기반 방법에 큰 한계가 있으며 다른 방법도 추측합니다. 이것은 밀도 기본 방법을 테스트하는 이유입니다. nasa 리서치, 대학 등 여러 번의 시리즈 이상 탐지에 대해서는 특정 데이터 문제에 대한 작은 진전이 있었으며 최근에는 이상치 탐지를위한 훌륭한 무료 소프트웨어 인 Weka의 MOA를 발견했습니다. 전에 테스트 했습니까? 이 소프트웨어는 오픈 소스 소프트웨어입니다. 소규모 탐지 이상 알고리즘을 개발하고 통합하기
위해이

oh : 참고로 : 나는 스트리밍 데이터를 취급하고있다
napsterockoeur
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.