Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 .
내가 찾기 위해 고군분투하는 것은 이상 또는 이상치 탐지를위한 솔루션입니다.
Mahout에는 Hidden Markov Models와 다양한 군집 기법 (K-Means 포함)이 있으므로이 중 하나를 사용하여 시계열에서 특이 치를 탐지하는 모델을 구축 할 수 있는지 궁금합니다. 누군가가 이것에 경험이 있다면 조언 할 수 있다면 감사 할 것입니다.
- 가능하다면
- 방법, 플러스
- 관련된 노력의 추정
- 이 접근법의 정확성 / 문제.
1
답변이 너무 모호합니다. 시계열은 k- 평균을 던져서 유용한 것을 얻기에는 너무 다릅니다. 그것은 크게 데이터에 따라 달라집니다.
—
종료 : 익명-무스
이상치 탐지의 경우 ELKI의 알고리즘을 살펴보십시오. 그것은 이상치 탐지의 가장 완벽한 모음 인 것 같습니다.
—
종료 : 익명-무스
최신 Elasticsearch 버전에는 시계열 이상 감지 기능이 내장되어 있습니다 (X-Pack을 구입해야한다고 생각합니다). 그들이 어떤 알고리즘을 사용하고 있는지 잘 모르겠지만 상용 솔루션을 조사 할 가치가 있습니다.
—
tom