나는 시계열의 변칙 점수로 작업하고 있습니다 (배경은 컴퓨터 네트워크에서 변칙 탐지입니다). 1 분마다 , 네트워크의 현재 상태가 "예기치 않은"또는 비정상 인 방법을 알려주 는 이상 점수 를 얻습니다 . 점수가 높을수록 현재 상태가 비정상입니다. 5에 가까운 점수는 이론적으로 가능하지만 거의 발생하지 않습니다.
이제이 변칙적 시계열 의 임계 값 을 자동으로 결정하는 알고리즘이나 공식을 생각해 보겠습니다 . 이상 점수가이 임계 값을 초과하면 알람이 트리거됩니다.
아래의 빈도 분포는 1 일 동안 비정상 시계열의 예입니다. 그러나 모든 이상 시계열이 그렇게 보일 것이라고 가정하는 것은 안전 하지 않습니다 . 이 특별한 예에서, .99-quantile과 같은 예외 임계 값은 가장 오른쪽에있는 몇 개의 점수가 예외로 간주 될 수 있기 때문에 의미가 있습니다.
시계열과 동일한 빈도 분포 (시계열에 더 높은 이상 점수가 없으므로 0에서 1까지만) :
불행히도 주파수 분포는 .99-quantile이 유용하지 않은 모양을 가질 수 있습니다 . 예는 다음과 같습니다. 오른쪽 꼬리는 매우 낮으므로 .99-quantile을 임계 값으로 사용하면 많은 오 탐지가 발생할 수 있습니다. 이 빈도 분포 는 이상을 포함하지 않는 것으로 보이 므로 임계 값은 분포 외부에서 약 0.25입니다.
요약하면,이 두 예의 차이점은 첫 번째 예는 이상을 나타내는 반면 두 번째 예는 그렇지 않은 것입니다.
순진한 관점에서 알고리즘은 다음 두 가지 경우를 고려해야합니다.
- 주파수 분포의 오른쪽 꼬리가 크면 (즉, 비정상 점수가 두 개 이상) .99-quantile이 좋은 임계 값이 될 수 있습니다.
- 빈도 분포의 오른쪽 꼬리가 매우 짧은 경우 (즉, 비정상 점수가없는 경우) 임계 값이 분포 외부에 있어야합니다.
/ edit : 사용 가능한 레이블이 지정된 데이터 세트와 같은 기본 정보도 없습니다. 따라서 알고리즘은 이상 점수의 특성에 대해 "맹목적"입니다.
이제 이러한 관측 값이 알고리즘 또는 수식으로 어떻게 표현 될 수 있는지 잘 모르겠습니다. 누구 든지이 문제를 해결할 수있는 제안이 있습니까? 통계 배경이 매우 제한적이므로 설명이 충분하기를 바랍니다.
당신의 도움을 주셔서 감사합니다!