시계열에서의 이상치 탐지 : 오 탐지를 줄이는 방법은 무엇입니까?


11

시계열에서 이상치 탐지를 자동화하려고하는데 여기에서 Rob Hyndman이 제안한 솔루션 수정을 사용했습니다 .

여러 국가의 웹 사이트 방문을 매일 측정합니다. 일일 방문이 몇 번 또는 몇 천 번인 일부 국가의 경우 내 방법이 합리적으로 작동하는 것 같습니다.

그러나 국가가 하루에 1 ~ 2 회 방문으로 이어지는 경우 알고리즘의 한계가 매우 좁아서 (예 : 1 ± 0.001) 2 회 방문이 이상치로 간주됩니다. 이러한 사례를 자동으로 탐지하고 특이 치를 식별하기 위해 어떻게 처리 할 수 ​​있습니까? 하루에 100 회 방문하는 수동 임계 값을 설정하고 싶지 않습니다.

감사합니다!


2
변수가 매우 큰 분산으로 인해 문제를 해결할 수있는 자연스럽고 간단한 방법은 Anscombe 또는 Freeman-Tukey 변환 과 같은 분산 안정화 변환 을 데이터에 적용하는 것입니다. 특이 치를 찾기 전에
whuber

답변:


3

작고 불연속적인 숫자를 많이 기대하지 마십시오. 1 회 방문에서 2 회 방문은 100 % 증가하고 0에서 1 회 방문은 무한 증가합니다. 낮은 수준에서는 제로 팽창 된 모델을 처리 할 수 있으며 그 아래에서도 노이즈가 심할 수 있습니다.

내 경험상 이와 같이 많은 수와 작은 수의 혼합으로 데이터를 계산하면 작은 수에 두 가지 문제가 발생합니다 .1) 너무 많은 일을하기에는 너무 거칠고, 2) 다른 프로세스에서 생성됩니다. (작은 시골 우체국 대 대도시 우체국을 생각하십시오). 따라서 최소한 두 가지로 모델링을 분할해야합니다. 더 많은 수를 위해 성공적으로 수행하는 작업을 수행하고 적은 수로 더 거칠고 더 대략적인 작업을 수행하십시오. 그러나 많은 소량을 기대하지 마십시오.

좋은 소식은 정의에 따라 많은 수의 거래를 포함하므로 더 나은 모델은 대부분의 사이트를 다루지 않더라도 더 많은 데이터를 포함한다는 것입니다.

( "모델링"은 일반적이라고 말하지만 물론 이상치 탐지는 특정 모델을 가정하고 해당 모델의 가정과 거의 일치하지 않는 점을 찾는 것입니다.)


1

시계열의 각 값은 확률 분포의 표본입니다. 먼저 확률 분포가 무엇인지 찾은 다음 해당 분포에서 희귀 단어의 의미를 정의해야합니다.

따라서 경험적 cdf를 계산하고 95 % 신뢰 구간을 계산하십시오. 해당 지역 이외의 지역에서 무언가가 발생하면, 정의 상으로는 드물게 발생한다는 것을 알고 있습니다.


0

특정 신뢰 수준에서 특이 치를 탐지하는 것과 특이점의 수용을 더욱 제한하는 두 번째 사양을 배치하는 것도 있습니다. "오토 박스는 미리 지정된 신뢰 수준에서 xx 단위의 평균 이동을 감지 할 수 있습니까?"라는 질문을 받았습니다. 본질적으로 필요한 것은 이중 테스트였습니다. AUTOBOX는 무료 소프트웨어가이 이중 테스트를 구현하지 않았기 때문에 비용 효율적으로 개발할 수 있도록 도와주는 소프트웨어입니다.

감사합니다 Nick : 저는 "이상한"또는 일반적으로 경험적으로 식별 된 결정 론적 영향의 특정 예로서 레벨 시프트를 사용하고있었습니다. 다른 형태의 "이상 값"은 펄스, 계절 펄스 및 현지 시간 추세 및 새로운 수준으로의 일시적 변화와 같은 특정 조합입니다. 주요 요점은 통계적 중요성과 실제 중요성을 반영하는 두 가지 가설이있을 수 있다는 것입니다. 이 문제를 처음에 주목 한 고객은 둘 다에 관심이있었습니다.


이상 치는 평균 이동을 의미 할 필요는 없다 .... 실제로, 다른 수단을 가진 체제들 사이의 단계적이거나 급격한 변화는 이상 치를 수반 할 필요는 없다. 당신은 이것을 매우 잘 알고 있지만, 그것이 암시하는 것은 다른 사람들이 당신의 대답을 살피는 것이 가장 도움이된다는 것입니다.
Nick Cox

둘 다 감사합니다. 저는 실제 세계의 중요성에 관심이 있습니다. 특이 치를 식별 한 후, 총 방문수와 비교하여 방문수의 비율이 중요하다는 것을 의미합니다. 2 회 방문의 경우이 비율이 실제로는 작지만 예상 값이 1 ± 0.001이므로 예상 한계에서 실제 점의 '거리'가 매우 높습니다 (예 : 0.002가 'iqr'인 경우 2 / 0.002). . 따라서 문제는 결국 큰 의미를 갖습니다. 어떤 아이디어?
Stergios

나는 여기에서 "이상한"의 확장 된 사용이 많은 문헌에서 흔히 볼 수있는 극단적 인 어떤 관대 한 감각보다 훨씬 더 넓다고 주장했다. 노련한 독자는 @IrishStat가 자신의 장점 인 시계열 분석을 고수한다는 것을 알게 될 것입니다.
Nick Cox

0

데이터가 정규 분포와 거리가 멀기 때문에이 문제가 발생했습니다. 분포가 매우 비대칭적이고 범프, 혹 또는 너무 길거나 짧은 꼬리로 인해 문제가 발생합니다. 방법을 사용하기 전에 Box Cox 또는 Yeo-Johnson과 같은 변환을 적용하는 것이 좋습니다. 예에서 F (x) = log (1 + x)를 사용하면 다른 크기 문제를 피하고 다음을 사용하여 다시 변환 할 수 있습니다. exp (z) -1

Box-Cox 변환을위한 좋은 람다를 자동으로 찾는 데 사용할 수있는 몇 가지 절차가 있습니다. 나는 개인적으로 R의 AID 패키지에서 boxcoxnc 함수의 모든 방법의 중앙값을 사용합니다. 데이터가 엄격하게 양수가 아닌 경우 사용하기 전에 1 또는 다른 양수를 추가해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.