정기적으로 증가하는 기능 세트 처리

10

사기 탐지 시스템을 개발 중입니다. 이 필드에서는 새로운 사기가 정기적으로 나타나므로 지속적으로 모델에 새로운 기능을 추가해야합니다.

개발 프로세스 관점에서 처리하는 가장 좋은 방법이 무엇인지 궁금합니다. 새로운 기능을 기능 벡터에 추가하고 분류자를 재교육하는 것은 기존 기능을 다시 학습하는 데 너무 많은 시간이 걸리기 때문에 순진한 접근 방식으로 보입니다.

각 기능 (또는 몇 가지 관련 기능)에 대해 분류자를 훈련시키고 그 분류기의 결과를 전체 분류기와 결합하는 방법을 생각하고 있습니다. 이 접근법의 단점이 있습니까? 전체 분류기에 대한 알고리즘을 어떻게 선택할 수 있습니까?

machine-learning bigdata

— 막심 프리 덴탈
소스

4

이상적인 세계에서는 모든 이력 데이터를 유지하고 실제로 이력 데이터에서 소급하여 추출 된 새로운 기능으로 새 모델을 실행합니다. 나는 이것에 소비 된 컴퓨팅 리소스가 실제로 매우 유용하다고 주장합니다. 정말 문제입니까?

예, 분류기 앙상블을 구축하고 결과를 결합하는 것은 널리 인정되는 기술입니다. 새로운 기능과 예측의 평균에 따라 새로운 모델을 병렬로 구축 할 수 있습니다. 이것은 가치를 추가해야하지만, 새로운 기능과 기존 기능 사이의 상호 작용을 분류 자에 함께 표시하지 않기 때문에 이런 식으로 상호 작용을 캡처하지 않습니다.

— 숀 오언
소스

2

다음은 방금 튀어 나온 아이디어입니다. 랜덤 서브 스페이스 샘플링 (실제로 Sean Owen이 제안한 바와 같이)을 사용하여 새로운 기능이 나타날 때마다 새로운 분류기를 훈련시킬 경우 (무작위 기능 하위 집합을 사용하여) 새로운 기능 세트). 훈련 시간을 절약하기 위해 샘플의 서브 세트에서 해당 모델을 훈련시킬 수 있습니다.

이 방법으로 새로운 분류기를 사용하여 새로운 기능과 기존 기능을 동시에 사용하고 동시에 기존 분류기를 유지할 수 있습니다. 교차 검증 기술을 사용하여 각 분류기의 성능을 측정하고 부풀린 모델을 피하기 위해 잠시 후 최악의 성능을 제거 할 수도 있습니다.

— insys
소스

0

당신이 설명하는 것은 머신 러닝 의 개념 드리프트 범주에 속합니다 . 이 요약 보고서 에서 흥미롭고 실행 가능한 아이디어를 찾을 수 있으며이 슬라이드 에서 가능한 접근 방식에 대한 분류법을 찾을 수 있습니다 .

— damienfrancois
소스