머신 러닝을 이용한 서버 로그 분석


10

이 작업에는 예외 로그, 데이터베이스 로그 이벤트 로그 등이 포함 된 응용 프로그램의 서버 로그를 분석하기 위해 할당되었습니다. 기계 학습에 익숙하지 않은 탄력적 검색 및 Sparks MLlib (또는 PredictionIO)와 함께 Spark를 사용합니다. 결과적으로 수집 된 예외 로그를 ​​기반으로 예측하여 다음 예외를 유발할 가능성이 높은 사용자와 기능 (및 추적을 유지하고 응용 프로그램의 최적화를 향상시키는 기타 기능)을 예측할 수 있습니다.

ElasticSearch에서 데이터를 스파크로 수집하고 DataFrame을 생성하고 필요한 데이터를 매핑 할 수있었습니다. 내가 알고 싶은 것은 구현의 기계 학습 측면에 어떻게 접근 하는가입니다. 데이터 전처리, 데이터 모델 교육 및 레이블 생성 및 예측 생성에 대해 설명하는 기사와 논문을 살펴 보았습니다.

내가 가진 질문은

  • 종료 로그 데이터를 훈련 할 데이터 세트에 사용할 수있는 숫자 벡터로 변환하는 방법에 어떻게 접근합니까?

  • 내 데이터 세트를 훈련시키는 데 사용하는 알고리즘 (지난 며칠 동안 수집 한 제한된 지식으로 선형 회귀를 구현하는 것에 대해 생각하고 있었으며 어떤 구현이 가장 적합한 지 제안하십시오)

이 문제에 접근하는 방법에 대한 제안을 찾으십시오.

감사합니다.


특정 사용자가 예외 가능성이 높다고 판단 할 수있는 예측 기능이 있다면 어떻게 하시겠습니까? 목표는 응용 프로그램을 최적화하는 것입니다. 응용 프로그램에서 알려진 버그를 수정하는 대신 엔지니어가 시간을 보내야하는 버그를 수정하려고합니까? 이 작업에는 기능 엔지니어링이 매우 중요 할 수 있습니다. 또한 로지스틱 회귀 분석을 고려하여 확률로 해석 될 수있는 0..1 값을 생성 할 수 있습니다.

5
나는 당신이 목표를 넘어서고 있다고 생각합니다. 마술을하기 위해 ML을 블랙 박스로 취급하지 마십시오. 결과를 얻으려면 올바른 질문을하고 적절한 데이터를 확보해야합니다.
종료-익명-무스

어떤 사용자가 다음 예외를 유발할 가능성이 높은지, 어떤 기능 (및 추적을 유지하고 응용 프로그램의 최적화를 향상시킬 다른 기능)을 예측 하기 위해 문제가 해결 되었습니까? 그렇다면 솔루션 접근 방식을 공유하거나 다른 사람이 공유 할 수 있습니까?
Ashish Tyagi

답변:


12

알고리즘에서 사용하기 위해 개별 로그 항목을 벡터로 변환해야한다고 생각하지 않습니다. 관심있는 것은 일련의 로그 항목이며, 일련의 이벤트를 시간 순서대로 표시하고 일련의 '사례'를 구성합니다. 여기서 수집 된 일련의 로그 항목 간의 관계가 중요합니다.

이 경우 프로세스 마이닝 기술 사용을 고려할 수 있습니다 . 이를 통해 프로세스 모델 (애플리케이션 사용)을 구축하고 오류 및 재 작업 단계와 함께 프로세스 단계의 패턴을 결정할 수 있습니다.

Coursera에 대한 좋은 소개 과정이 있습니다 . 분석 및 시각화에 도움이되는 'disco'와 같은 일부 개발 된 상용 패키지도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.