이상 감지를위한 자동 기능 선택


11

이상 감지를위한 기능을 자동으로 선택하는 가장 좋은 방법은 무엇입니까?

어떤 중요한 것은 출력입니다 : 나는 일반적으로 기능이 인간의 전문가들에 의해 선택 알고리즘으로 변형 탐지 치료 범위 너무도 많은 기능을 당신은 - ( "이상 출력 이상 입력"에서와 같이) 할 수 있습니다 결합하여 훨씬 작은 부분 집합을 마련 특징.

그러나 일반적으로 기능 목록이 클 수 있다고 가정하면 자동화 된 학습이 때때로 바람직합니다. 내가 알 수있는 한 몇 가지 시도가 있습니다.

  • 지원 벡터 데이터 설명을 일반화하는 "변칙 탐지를위한 자동화 된 기능 선택" ( pdf )
  • "거친 집합 이론을 사용하는 빠른 호스트 기반 침입 탐지 시스템" (pdf 없음) 거친 집합 이론을 사용하는 것 같습니다.
  • 통계적 접근 방식을 사용하는 "적대적인 네트워크 트래픽의 이상 탐지에 대한 학습 규칙" ( pdf , video )

이제 이상 감지와 실제로 큰 (수백?) 기능 세트를 가정하면 누구나 말할 수 있는지 궁금합니다.

  1. 그 거대한 기능 세트가 전혀 의미가 있습니까? 예를 들어 수십 개로 설정 한 기능 만 축소하면 안됩니까?
  2. 거대한 기능 세트가 의미가 있다면, 위의 방법 중 어느 것이 더 나은 예측을 제공할까요? 훨씬 더 나은 목록이없는 것이 있습니까?
  3. 클러스터링 / 랭킹 등을 통한 차원 축소 또는 피처 구성과 비교하여 더 나은 결과를 제공해야하는 이유는 무엇입니까?

귀하의 링크는 나에게 특별한 질문을 제기하지 않았습니다. 문제에 대한 간단한 설명을 줄 수 있습니까? 목표는 무엇입니까? 감독 또는 감독되지 않은 학습 문제입니까?
AdamO

문제는 ML.SE에서 왔으며 현재 닫혀 있습니다. 관리자가 모든 질문에 병합하지 않은 것 같습니다. 문제를 명시 적으로 나타 내기 위해 지금 텍스트를 편집했습니다!
andreister

답변:


1

(적어도지도 학습의 경우) 한 가지 실용적인 접근 방식은 가능한 모든 관련 기능을 포함하고 정규화 (L1 및 / 또는 L2)와 함께 (일반화 된) 선형 모델 (물류 회귀, 선형 svm 등)을 사용하는 것입니다. 이러한 유형의 모델에 대한 수조 개의 예제 / 기능 조합을 처리 할 수있는 오픈 소스 도구 (예 : Vowpal Wabbit)가 있으므로 확장 성이 문제가되지 않습니다 (항상 서브 샘플링을 사용할 수 있음). 정규화는 기능 선택을 처리하는 데 도움이됩니다.


그러나 감독되지 않은 설정에서 기능을 선택하는 방법 (중요한 기능을 제시하기 위해 선형 모델 등을 사용할 필요가 없음)? 내가 생각할 수있는 한 가지 방법은 PCA를 사용하여 약간의 차이를 유지하고 데이터 크기를 줄이는 것입니다. 그러나 예외 탐지 문제에서 데이터를 줄이는 것은 예측하려는 실제 특이 치가 누락 될 수 있으므로 위험 해 보입니다. 따라서 혼란.
exAres
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.