이 작업에는 예외 로그, 데이터베이스 로그 이벤트 로그 등이 포함 된 응용 프로그램의 서버 로그를 분석하기 위해 할당되었습니다. 기계 학습에 익숙하지 않은 탄력적 검색 및 Sparks MLlib (또는 PredictionIO)와 함께 Spark를 사용합니다. 결과적으로 수집 된 예외 로그를 기반으로 예측하여 다음 예외를 유발할 가능성이 높은 사용자와 기능 (및 추적을 유지하고 응용 프로그램의 최적화를 향상시키는 기타 기능)을 예측할 수 있습니다.
ElasticSearch에서 데이터를 스파크로 수집하고 DataFrame을 생성하고 필요한 데이터를 매핑 할 수있었습니다. 내가 알고 싶은 것은 구현의 기계 학습 측면에 어떻게 접근 하는가입니다. 데이터 전처리, 데이터 모델 교육 및 레이블 생성 및 예측 생성에 대해 설명하는 기사와 논문을 살펴 보았습니다.
내가 가진 질문은
종료 로그 데이터를 훈련 할 데이터 세트에 사용할 수있는 숫자 벡터로 변환하는 방법에 어떻게 접근합니까?
내 데이터 세트를 훈련시키는 데 사용하는 알고리즘 (지난 며칠 동안 수집 한 제한된 지식으로 선형 회귀를 구현하는 것에 대해 생각하고 있었으며 어떤 구현이 가장 적합한 지 제안하십시오)
이 문제에 접근하는 방법에 대한 제안을 찾으십시오.
감사합니다.