확장 가능한 이상치 / 이상 탐지


10

Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 .

내가 찾기 위해 고군분투하는 것은 이상 또는 이상치 탐지를위한 솔루션입니다.

Mahout에는 Hidden Markov Models와 다양한 군집 기법 (K-Means 포함)이 있으므로이 중 하나를 사용하여 시계열에서 특이 치를 탐지하는 모델을 구축 할 수 있는지 궁금합니다. 누군가가 이것에 경험이 있다면 조언 할 수 있다면 감사 할 것입니다.

  1. 가능하다면
  2. 방법, 플러스
  3. 관련된 노력의 추정
  4. 이 접근법의 정확성 / 문제.

1
답변이 너무 모호합니다. 시계열은 k- 평균을 던져서 유용한 것을 얻기에는 너무 다릅니다. 그것은 크게 데이터에 따라 달라집니다.
종료 : 익명-무스

1
이상치 탐지의 경우 ELKI의 알고리즘을 살펴보십시오. 그것은 이상치 탐지의 가장 완벽한 모음 인 것 같습니다.
종료 : 익명-무스

최신 Elasticsearch 버전에는 시계열 이상 감지 기능이 내장되어 있습니다 (X-Pack을 구입해야한다고 생각합니다). 그들이 어떤 알고리즘을 사용하고 있는지 잘 모르겠지만 상용 솔루션을 조사 할 가치가 있습니다.
tom

답변:


7

t-digest는 p-square 알고리즘과 어떻게 비교됩니까?
David Marx

답변 주셔서 감사합니다 : 이것은 극단적 인 Quantile을 계산하는 간단한 모델이며 내 요구에 맞을 것이라고 생각합니다. 그러나 거의 고정 분포가없는 더 복잡한 시계열의 경우이 방법이 실패 할 수 있으며 Markov 체인과 같은 적응 형이 필요할 것이라고 생각합니다.
더블 바이트

0

stackexchange 에서 h2o R 또는 Python 이상 감지 방법과 관련된 내 응답을 참조 할 수 있습니다 . 확장 가능하기 때문입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.