직관적이지 않은 것처럼 보일 수도 있지만 설명하는 접근 방식을 사용하는 것은 말이 되지 않습니다 (말로 표현하기 위해 "결과가 의도 한 것과는 매우 다른 결과를 초래할 수 있습니다"라고 쓰십시오). 그것은 작동하지 않으며 결과적으로 추가 비용없이 사용할 수있는 더 간단하고 훨씬 안전하며 더 나은 대안이 있습니다.
첫째, 특이 치가 하나 인 경우 제안한 절차에 따라 결과를 찾을 수 있습니다. 그러나 일반적으로 (데이터에 하나 이상의 특이 치가있을 때), 제안한 알고리즘은 좋은 데이터 포인트를 특이 치로 거부하거나 특이 치를 좋은 데이터 포인트로 유지하도록 잠재적으로 의미가 있습니다. 잠재적으로 치명적인 결과를 초래합니다.
아래에서는 제안하는 규칙이 세분화되고 훨씬 안전하고 확실한 대안을 제안하는 간단한 수치 예를 제시하지만이 전에 a) 제안한 방법에 어떤 문제가 있는지, b) 일반적으로 선호하는 사항에 대해 설명하겠습니다. 그것에 대한 대안입니다.
본질적으로, 사용하는 추정치 (평균과 표준 편차는 그대로 남음)가 여전히 나머지를 향하여 당겨지기 쉬우므로, 데이터의 평균 한도 및 표준 편차로부터 관측 거리를 사용하여 특이 치를 탐지 할 수 없습니다 특이 치 :이를 마스킹 효과라고합니다.
간단히 말해서 이상 값을 안정적으로 감지하는 한 가지 간단한 방법은 제안한 일반적인 아이디어 (위치 및 스케일의 추정치로부터의 거리)를 사용하지만 사용한 추정값을 하나의 평균, sd를 제외하고 강력한 것으로 대체하는 것입니다. 특이 치에 의해 좌우되는 경향이 훨씬 적습니다.
Normal 0,1에서 가져온 47 개의 실제 관측치에 3 개의 특이 치를 추가하는이 예를 고려하십시오.
n <- 50
set.seed(123) # for reproducibility
x <- round(rnorm(n,0,1), 1)
x[1] <- x[1]+1000
x[2] <- x[2]+10
x[3] <- x[3]+10
아래 코드는 1 차 평균과 표준 편차 (예 : 제안한 접근 방식)를 기준으로 외곽 지수를 계산합니다.
out_1 <- rep(NA,n)
for(i in 1:n){ out_1[i] <- abs( x[i]-mean(x[-i]) )/sd(x[-i]) }
이 코드는 아래에 표시된 플롯을 생성합니다.
plot(x, out_1, ylim=c(0,1), xlim=c(-3,20))
points(x[1:3], out_1[1:3], col="red", pch=16)
이미지 1은 관측치 값의 함수로 외곽 지수의 값을 나타냅니다 (이상치에서 가장 먼 거리는이 그림의 범위를 벗어나지 만 다른 두 개는 빨간색 점으로 표시됨). 실제로 두 번째와 세 번째 (온화한) 이상 값이 지금도 (당신의 outlyingness 지수) 값이보다 작은 : 당신이 볼 수 있듯이 당신이 이상치 공개 실패 제안으로, 가장 극단적 인의 하나를 제외하고 outlyingness 인덱스 구성 을 모두당신이 제안한 접근법 하에서,이 두 개의 극단적 인 특이 값을 진정한 관측 값 세트로 유지함으로써, 49 개의 남은 관측 값을 마치 동일한 균질 프로세스에서 나온 것처럼 사용할 수있게되어 최종 결과를 얻게됩니다 0.449 및 2.32의 49 개 데이터 포인트를 기반으로 한 평균 및 sd의 추정치 ( 샘플 의 각 부분에 대한 매우 잘못된 설명) !
엑스나는엑스
O ( x나는, X) = | 엑스나는− 메드 ( X) |미친 (X)
메드 ( X)엑스미친 (X)
R에서이 두 번째 외곽 지수는 다음과 같이 계산 될 수 있습니다.
out_2 <- abs( x-median(x) )/mad(x)
다음을 사용하여 (이전과 같이) 플롯했습니다.
plot(x, out_2, ylim=c(0,15), xlim=c(-3,20))
points(x[1:3], out_2[1:3], col="red", pch=16)
이미지 2는 동일한 데이터 세트에 대한이 대체 외곽 지수의 값을 나타냅니다. 보시다시피, 이제 세 가지 특이 치 모두 명확하게 드러납니다. 또한이 이상치 탐지 규칙에는 몇 가지 기존 통계 속성이 있습니다. 이는 무엇보다도 사용 가능한 차단 규칙으로 이어집니다. 예를 들어, 데이터의 실제 부분이 유한 한 순간의 대칭 분포에서 도출 된 것으로 가정 할 수있는 경우 모든 데이터 포인트를 거부 할 수 있습니다.
| 엑스나는− 메드 ( X) |미친 (X)> 3.5
이상 값으로. 위의 예에서이 규칙을 적용하면 관측치 1,2 및 3에 올바르게 플래그를 지정할 수 있습니다.이를 거부하면 나머지 관측치의 평균 및 SD는 0.021 및 0.93이며, 표본의 실제 부분에 대한 훨씬 더 나은 설명입니다. !