치우친 분포에 대한 이상치 탐지

데이터 점으로서의 특이점에 대한 고전적인 정의에서 상하 사 분위의 1.5 * IQR을 능가하는 경우 비대칭 분포가 가정됩니다. 기울어 진 분포 (지수, 포아송, 기하 등)의 경우 원래 함수의 변환을 분석하여 특이 치를 탐지하는 가장 좋은 방법은 무엇입니까?

예를 들어 지수 분포가 느슨하게 분포 된 분포는 로그 함수로 변환 할 수 있습니다.이 시점에서 동일한 IQR 정의를 기반으로 특이 치를 찾을 수 있습니까?

— 에릭
소스

이 사이트에는 특이 치를 평가하는 데 대한 많은 질문이 있습니다. 합리적인 답변을 얻기 위해 여기에 추가해야 할 한 가지는 실제로 수행하거나 찾으려고하는 것입니다. 그러나 우선, 1.5*IQR특이점 의 정의는 보편적으로 받아 들여지지 않습니다. 질문을 내리고 해결하려는 문제를 확장하십시오.

— John

1.5 IQR을 초과하는 값이 특이 치라는 진술은 단순히 말도 안됩니다. 1.5 IQR을 초과하는 데이터는 무한대의 분포와 완전히 일치하며 표본 크기가 커짐에 따라 그러한 데이터가 특이 치가 아니라는 것을 거의 완벽하게 확신 할 수 있습니다.

— 늑대

답변:

데이터 포인트로서의 특이점에 대한 고전적인 정의에 따르면, 상한 또는 하한 사 분위수의 1.5 * IQR을 능가합니다.

이것은 상자 그림에서 수염 끝 끝을 벗어난 점을 식별하는 규칙입니다. Tukey 자신은 의심 할 여지없이 이러한 기준으로 이상 치를 호출하는 것에 반대 할 것입니다 (그는 반드시 그 한계를 벗어난 점을 이상치로 간주하지는 않았습니다). 데이터가 정규 분포와 다소 유사한 분포에서 나온 것으로 예상되는 경우 추가 조사가 필요할 수 있습니다 (예 : 두 자리 숫자를 바꾸지 않았는지 확인). 잠재적 인 특이 치일 수 있습니다 . Nick Cox 가이 답변에 대한 의견 에서 지적한 것처럼 , 그러한 많은 점의 꼬리는 점을 특이 치로 간주해야한다는 표시보다 재 표현이 적합하다는 지표로 더 많이 사용됩니다.

비대칭 분포에 대한 가정이 있습니다.

나는 '비뚤어지지 않음'으로 대칭을 의미한다고 가정했습니다. 그렇다면 가정은 그 이상입니다. 꼬리가 두꺼운 대칭 분포의 경우 해당 규칙의 경계를 벗어나는 많은 점이 있을 수 있습니다 .

기울어 진 분포 (지수, 포아송, 기하 등)의 경우 원래 함수의 변환을 분석하여 특이 치를 탐지하는 가장 좋은 방법은 무엇입니까?

그것은 당신의 목적에 특이 치를 구성하는 것에 달려 있습니다. 각 목적에 적합한 단일 정의는 없습니다. 실제로 일반적으로 특이 치를 선택하고 생략하는 다른 작업을 수행하는 것이 좋습니다.

지수 또는 기하의 경우 상자 그림의 계산과 유사한 계산을 수행 할 수 있지만 오른쪽 꼬리에서만 유사한 분수를 식별합니다 (지수 또는 기하로 식별되는 저가형 포인트는 없습니다) ... 또는 다른 것을 할 수 있습니다. $^{\dagger}$

$\dagger$ 큰 표본에서 상자 그림은 각 끝에서 약 0.35 % 또는 총 0.7 %를 표시합니다. 지수의 경우 예를 들어 중간의 여러 배수를 표시 할 수 있습니다. 실제 지수에 대해 총 0.7 %의 포인트를 태그하려는 경우 중앙값의 약 7.1 배를 초과하는 포인트를 표시하는 것이 좋습니다.

n = 1000의 중앙값이 7.1 배 이상인 표시 점은 일반적으로 값의 0.4 % ~ 1.1 % 사이입니다.

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7

예를 들어 지수 분포가 느슨하게 분포 된 분포는 로그 함수로 변환 할 수 있습니다.이 시점에서 동일한 IQR 정의를 기반으로 특이 치를 찾을 수 있습니까?

그것은 "허용 가능한"이라는 의미에 전적으로 달려 있습니다. 그러나

i) 결과 분포는 실제로 대칭이 아니지만 분명히 왼쪽으로 치우칩니다.

여기에 이미지 설명을 입력하십시오

결과적으로 , 실제로 는 그렇지 않으면 오른쪽 ( "이상 값"이있는 경우)이 아니라 왼쪽 끝 (즉, 지수 값이 예상되는 0에 가까운 지점) 만 표시 합니다. 극단.

ii) 그러한 규칙의 적합성은 귀하가하는 일에 크게 좌우 될 것입니다.

추론에 영향을 미치는 홀수 이상한 값에 대해 우려하는 경우 일반적으로 공식적으로 특이 치를 식별하는 것보다 강력한 절차를 사용하는 것이 좋습니다.

변환 된 지수 또는 푸 아송 데이터에 대해 정규 기반 규칙을 실제로 사용하려면 적어도 푸 아송의 제곱근 에 평균을 적용하는 것이 좋습니다 (평균이 너무 작지 않는 한) , 그것은 대략적으로 정상적이어야하고 지수에 대한 뿌리 (또는 아마도 기하에 의해)의 제곱근 또는 제 4 근을 입방체로 만들어야합니다. $^{\ddagger}$

$\ddagger$ Anscombe 변환 에서와 같이 또는 아마도 $\sqrt{X+\frac{3}{8}}$

여기에 이미지 설명을 입력하십시오

지수의 경우, 큰 표본에서 입방체 루트 접근 방식은 상단 꼬리에만 점을 표시하는 경향이 있으며 (대략 정상의 경우 상단 꼬리에 표시되는 것과 거의 동일한 속도로) 네 번째 근접 방법은 양쪽 꼬리에 점을 표시합니다. (하단에서 약간 더 많으며, 총계의 40 %에 가까운 수준에서 정상에 비해) 가능성 중에서 큐브 루트가 다른 두 개보다 나에게 더 의미가 있지만, 이것을 강력하고 빠른 규칙으로 사용하는 것이 좋습니다.

— Glen_b-복귀 모니카
소스

"꼬리가 큰 대칭 분포의 경우 해당 규칙의 범위를 벗어나는 점이 많을 수 있습니다." IQR 내에 모든 포인트의 항상 정확히 50 %가 있습니까?

— JulienD

@muraveill 실제로- 논의중인 박스 플롯 규칙 인 외부에 항상 0.7 %의 포인트 가있는 것은 아닙니다.

(Q_{1} - 1.5 \times IQR, Q_{3} + 1.5 \times IQR)

$(Q_1-1.5\times \text{IQR},Q_3+1.5\times \text{IQR})$

— Glen_b-복원 모니카

@Glen_b 답의 지수에 대한 상위 거부 임계 값은 시프트 매개 변수 (또는 theta)가 알려져 있다고 가정합니다. 나는 이것이 언급되어야한다고 생각한다.

— user603

@ user603 가장 일반적으로 수정 형용사 ( "shifted"또는 "two-parameter")가없는 " 지수 분포 "( 여기서도 참조 ) 라는 용어 는 가장 일반적으로 1 매개 변수 버전을 나타냅니다. 어떤 사람들은 쉬프트 된 버전을 "지수 분포"라고 부르지 만, 상대적으로 드물다. 시프트 된 로그 정규 분포 "로그 정규 분포"를 호출하는 것보다 약간 더 일반적입니다.

— Glen_b-복지 주 모니카

@ user603 아, 죄송합니다. 간단한 오해입니다.이 경우, 우리는 실질적인 의견 차이가 없다고 생각합니다. 왼쪽에 큰 특이 치가있을 가능성이있는 경우 언급 한 접근 방식 은 전혀 의미가 없습니다 . 나는 단순히 그 상황을 다루려고 시도하지 않았습니다 (그러나 국방에서는 OP가 가능성으로 간주되는 것처럼 보이지 않았습니다. 로그가 있으면 생각 나지 않을 것입니다).

— Glen_b-복지 모니카

나는 당신이 질문 한 순서와 반대의 순서로 당신의 질문에 대답 할 것입니다.

먼저, 소수의 특이 치를 제외하고, 대부분의 데이터는 알려진 분포 (귀하의 지수)에 의해 잘 설명 될 수 있다고 가정 할 수 있습니다.

에 pdf가있는 경우 : $x$

p_{X} (x) = σ^{- 1} exp (\frac{- (x - θ)}{σ}), x > 0; σ > 0

$p_X(x)=\sigma^{-1}\mbox{exp}\left(\frac{-(x-\theta)}{\sigma}\right),\;x>0;\sigma>0$

다음, 지수 분포 (우리는 설정된 특별한 경우 따르라고 한 파라미터 또는 기준 지수 분포를 호출). $x$ $\theta=0$

모수의 일반적인 MLE 추정량은 [0, p 506]입니다.

\hat{θ} = min_{i} x_{i}

$\hat{\theta}=\min_i x_i$

과

\hat{σ} = {ave}_{i} x_{i} - min_{i} x_{i}

$\hat{\sigma}=\mbox{ave}_ix_i-\min_i x_i$

예를 들면 다음과 같습니다 R.

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

의 MLE 는 입니다. $\sigma$ $\approx2.08$

불행하게도 MLE 추정치는 특이 치의 존재에 매우 민감합니다. 예를 들어 의 20 %를 로 바꾸어 샘플을 손상시킨 경우 : $x_i$ $-x_i$

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

손상된 샘플을 기반으로하는 의 MLE 는 이제 (!)입니다. 두 번째 예로, 의 20 %를 로 바꾸어 샘플을 손상시킨 경우 (소수점이 실수로 잘못 배치 된 경우) : $\sigma$ $\approx11.12$ $x_i$ $100x_i$

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

이 두 번째 손상된 샘플을 기반으로 하는 의 MLE 는 이제 (!)입니다. $\sigma$ $\approx54$

미가공 MLE에 대한 대안은 (a) 강력한 특이 치 식별 규칙을 사용하여 특이 치를 찾고 , (b) 그것들을 가짜 데이터로 설정하고 (c) 표본의 비 위조 부분에서 MLE을 계산하는 것입니다.

이 강력한 특이점 식별 규칙 중 가장 잘 알려진 규칙은 Hampel [3]이 제안한 med / mad 규칙으로, Gauss에 근거한 것입니다 (여기서이 규칙을 설명 했습니다 ). med / mad 규칙에서 기각 임계 값은 표본의 실제 관측치가 정규 분포에 의해 근사치라는 가정을 기반으로합니다.

물론, 당신은 (예 : 정품 관찰의 분포가 잘으로하는 푸 아송 분포에 의해 근사 것을 알고 같은 추가 정보가있는 경우 이 예제 데이터를 변환하고 기준 이상치 제거 규칙을 사용하지 못하도록 아무것도합니다 (이 없음) med / mad) 그러나 이것은 임시 규칙 이후의 것을 보존하기 위해 데이터를 변환하는 데 약간 어색합니다.

데이터를 보존하지만 거부 규칙을 적용하는 것이 훨씬 더 논리적으로 보입니다. 그런 다음 위의 첫 번째 링크에서 설명한 3 단계 절차를 계속 사용하지만 분포에 대한 거부 임계 값을 적용하면 데이터의 좋은 부분이 있다고 의심됩니다. 아래에서는 지수 분포에 의해 실제 관측치가 잘 맞는 상황에서 거부 규칙을 제시합니다. 이 경우 다음 규칙을 사용하여 적절한 거부 임계 값을 구성 할 수 있습니다.

1) [1]을 사용하여 를 추정합니다 . $\theta$

{\hat{θ}}^{'} = {med}_{i} x_{i} - 3.476 Qn (x) \ln 2

$\hat{\theta}'=\mbox{med}_ix_i-3.476\mbox{Qn}(x)\ln2$

Qn은 대칭 데이터에 적합하지 않은 강력한 산란 추정치입니다. 예를 들어 R 패키지 robustbase 에서 널리 구현 됩니다. 지수 분포 데이터의 경우 Qn에 일관성 계수 곱합니다 . 자세한 내용은 [1]을 참조하십시오. $\approx3.476$

2) 모든 관측 값을 허위로 거부 [2, p 188]

[{\hat{θ}}^{'}, 9 (1 + 2 / n) {med}_{i} x_{i} + {\hat{θ}}^{'}]

$[\hat{\theta}',9(1+2/n)\mbox{med}_ix_i+\hat{\theta}']$

(위의 규칙에서 요소 9는 위의 Glen_b의 답변에서 7.1로 얻었지만 더 높은 컷오프를 사용합니다. 요소 (1 + 2 / n)은 [2]의 시뮬레이션에 의해 도출 된 작은 샘플 보정 요소입니다. 충분히 큰 표본 크기의 경우 본질적으로 1)과 같습니다.

3) 가짜가 아닌 데이터에 MLE을 사용하여 를 추정하십시오 . $\sigma$

{\hat{σ}}^{'} = {ave}_{i \in H} x_{i} - {min}_{i \in H} x_{i}

$\hat{\sigma}'=\mbox{ave}_{i\in H}x_i-\mbox{min}_{i\in H}x_i$

여기서 입니다. $H=\{i:\hat{\theta}'\leq x_i \leq 9(1+2/n)\mbox{med}_ix_i+\hat{\theta}'\}$

이전 예제에서이 규칙을 사용하면 다음을 얻을 수 있습니다.

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

의 강력한 추정값 은 이제 (데이터가 깨끗할 때 MLE 값에 매우 근접 함). 두 번째 예에서 : $\sigma$ $\approx2.05$

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

의 강력한 추정값 은 현재 (이상 값없이 얻을 수있는 값에 매우 근접 함). $\sigma$ $\approx2.2$

세 번째 예에서 :

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

의 강력한 추정값 은 현재 (이상 값없이 얻을 수있는 값에 매우 근접 함). $\sigma$ $\approx2.2$

이 접근법의 부수적 인 이점은 의심 할만한 관측치의 부분 집합을 만들어 나머지 데이터와 별도로 설정해야하며, 아마도 자신의 권리에 대한 관심 대상 ( ). $\{i:i\notin H\}$

이제 대칭 분포가 수행되지 않는다는 사실을 알기보다는 대량의 관측치에 적합하게 적합한 후보 분포가없는 일반적인 경우에는 조정 된 상자 그림 [4]을 사용할 수 있습니다. 이것은 데이터의 비대칭적이고 특이하지 않은 비대칭 측정 값을 고려한 상자 그림의 일반화입니다 (따라서 데이터의 대부분이 대칭 일 때 일반적인 상자 그림으로 축소됨). 이 답변에서 그림을 확인할 수도 있습니다 .

Johnson NL, Kotz S., Balakrishnan N. (1994). 연속 일 변량 분포, 제 1 권, 제 2 판.
Rousseeuw PJ와 Croux C. (1993). 중앙 절대 편차에 대한 대안. 미국 통계 협회, Vol. 88, No. 424, 1273--1283 쪽.
[2] JK Patel, CH Kapadia 및 DB Owen, Dekker (1976). 통계 분포 핸드북.
[3] Hampel (1974). 강력한 추정에서 영향 곡선과 역할 미국 통계 협회 저널 Vol. 69, No. 346 (1974 년 6 월), pp. 383-393.
[4] Vandervieren, E., Hubert, M. (2004) "비뚤어진 분포에 대한 조정 된 상자 그림". 전산 통계 및 데이터 분석 제 52 권, 제 12 호, 2008 년 8 월 15 일, 페이지 5186–5201.

— 사용자 603
소스

먼저, 고전적이든 아니든 그 정의에 의문을 제기합니다. "outlier"는 놀라운 포인트입니다. 특정 규칙 (대칭 분포에도)을 사용하는 것은 특히 오늘날 많은 양의 데이터 세트가있는 경우 잘못된 아이디어입니다. (예를 들어) 백만 개의 관측치 (일부 분야에서는 그다지 크지 않은)의 데이터 세트에서 분포가 완벽하게 정상이더라도 인용하는 1.5 IQR 한계를 초과하는 경우가 많이있을 것입니다.

둘째, 원본 데이터에서 특이 치를 찾는 것이 좋습니다. 거의 항상 더 직관적입니다. 예를 들어 수입 데이터의 경우 로그를 취하는 것이 일반적입니다. 그러나 여기에서도 원래 규모 (달러 또는 유로 등)의 특이 치를 찾을 것입니다. 왜냐하면 우리는 그러한 숫자에 대해 더 나은 느낌을 가지고 있기 때문입니다. (로그를 가져 가면 적어도 약간 직관적이기 때문에 이상치 탐지를 위해 로그베이스 10을 제안합니다.)

셋째, 특이 치를 찾을 때는 마스킹에주의하십시오.

마지막으로, 저는 현재 다양한 종류의 데이터와 문제에 대해 Atkinson과 Riani가 제안한 "앞으로 검색"알고리즘을 연구하고 있습니다. 이것은 매우 유망 해 보입니다.

— 피터 플 로움-모니카 복원
소스