문제 배경 : IT 모니터링 공간에서 찾은 것과 비슷한 로그 파일이 포함 된 프로젝트를 진행하고 있습니다 (IT 공간을 가장 잘 이해하고 있음). 이 로그 파일은 시계열 데이터이며 다양한 매개 변수의 수백 / 수천 행으로 구성됩니다. 각 매개 변수는 숫자 (float)이며 각 시점에 대해 사소한 / 오류가없는 값이 있습니다. 내 임무는 이상 로그 탐지 (스파이크, 낙하, 일부 매개 변수가 동기화되지 않은 이상한 패턴, 이상한 1 / 2 등 / 파생 동작 등)를 위해 로그 파일을 모니터링하는 것입니다.
비슷한 과제에서 Prelert와 함께 Splunk를 사용해 보았지만 현재 오픈 소스 옵션을 탐색 중입니다.
제약 조건 : 잘 알고 있기 때문에 파이썬으로 제한하고 있으며 R 및 관련 학습 곡선으로의 전환을 지연하고 싶습니다. R (또는 다른 언어 / 소프트웨어)에 대한 압도적 인 지원이없는 한이 작업을 위해 Python을 고수하고 싶습니다.
또한 현재 Windows 환경에서 작업하고 있습니다. 소형 로그 파일로 Windows에서 샌드 박스를 계속하고 싶지만 필요한 경우 Linux 환경으로 이동할 수 있습니다.
자료 : 결과로 막 다른 골목으로 다음을 확인했습니다.
파이썬이나 사기 탐지를위한 기계 학습 알고리즘을 구현하기위한 R . 여기에있는 일부 정보는 도움이되지만 불행히도 다음과 같은 이유로 올바른 패키지를 찾는 데 어려움을 겪고 있습니다.
트위터의 "AnomalyDetection"은 R에 있으며 파이썬을 고수하고 싶습니다. 또한 Python 포트 특유성 으로 인해 Windows 환경에서 구현하는 데 문제가있는 것 같습니다.
다음 시도 인 스카이 라인은 ( github 문제에서 ) 거의 중단 된 것으로 보입니다 . 온라인에 대한 지원이 거의없는 것을 감안할 때 나는 이것에 깊이 빠져들지 않았습니다.
scikit-learn 나는 아직도 탐구하고 있지만, 이것은 훨씬 더 수동적 인 것 같습니다. 최첨단 접근법은 괜찮지 만 학습 도구의 배경은 약하므로 Splunk + Prelert와 비슷한 알고리즘과 같은 기술적 측면의 블랙 박스와 같은 것이 좋습니다.
문제 정의 및 질문 : 패키지 또는 라이브러리를 통해 Python의 시계열 로그 파일에서 이상 감지 프로세스를 자동화하는 데 도움이되는 오픈 소스 소프트웨어를 찾고 있습니다.
- 그러한 일들이 내 직무를 돕는 데 존재합니까, 아니면 내 생각에 상상력이 있습니까?
- 누구나 배경 기초 나 개념을 포함하여 나의 목표를 달성하기 위해 구체적인 단계를 도울 수 있습니까?
- 이것이 가장 좋은 StackExchange 커뮤니티입니까, 통계, 수학 또는 보안 또는 Stackoverflow가 더 나은 옵션입니까?
편집 [2015-07-23] 특이점에 대한 최신 업데이트 는 Windows 환경에서 수정 된 것 같습니다 . 아직 확인하지는 않았지만 커뮤니티에 유용한 도구가되어야합니다.
편집 [2016-01-19] 사소한 업데이트. 나는 이것에 대해 연구하고 연구 할 시간이 없었지만, 구체적인 세부 사항을 계속 연구하기 전에이 문제의 기초를 이해하기 위해 한 걸음 물러서 고 있습니다. 예를 들어, 내가 취하는 두 가지 구체적인 단계는 다음과 같습니다.
이상 감지를위한 Wikipedia 기사로 시작 [ https://en.wikipedia.org/wiki/Anomaly_detection ], 완전히 이해 한 다음 [ https : // 와 같은 다른 링크 된 Wikipedia 기사의 개념 계층에서 위 또는 아래로 이동 en.wikipedia.org/wiki/K-nearest_neighbors_algorithm ] 그리고 [ https://en.wikipedia.org/wiki/Machine_learning ]으로 이동하십시오.
Chandola et al 2009 "Anomaly Detection : A Survey"[ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ] 및 Hodge et al 2004에 의해 수행 된 훌륭한 설문 조사 기술 활용 "이상 점 탐지 방법론 조사"[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ].
일단 개념이 더 잘 이해되면 (실제적인 측면을 개발하기 위해 장난감 예제를 가지고 놀기를 바랍니다), 어떤 오픈 소스 Python 도구가 내 문제에 더 적합한 지 이해하고 싶습니다.