극도로 치우친 1D 랜덤 변수가 있습니다. 이 분포를 정규화하기 위해 평균이 아닌 중앙값을 사용하고 싶습니다. 내 질문은 이것입니다 : 평균 대신 수식의 중앙값을 사용하여 분포의 분산을 계산할 수 있습니까?
즉 교체 할 수 있습니까
와
이 배후의 나의 추론은 분산이 분포의 중심 경향에 의한 확산의 척도이기 때문에 문제가되어서는 안되지만이 논리를 검증하려고합니다.
극도로 치우친 1D 랜덤 변수가 있습니다. 이 분포를 정규화하기 위해 평균이 아닌 중앙값을 사용하고 싶습니다. 내 질문은 이것입니다 : 평균 대신 수식의 중앙값을 사용하여 분포의 분산을 계산할 수 있습니까?
즉 교체 할 수 있습니까
와
이 배후의 나의 추론은 분산이 분포의 중심 경향에 의한 확산의 척도이기 때문에 문제가되어서는 안되지만이 논리를 검증하려고합니다.
답변:
평균은 제곱 오차 (또는 L2 규범, 여기 또는 여기 참조)를 최소화하므로 평균과의 거리를 측정하는 분산의 제곱 오차는 제곱 오차를 사용하는 것입니다 ( 여기서 제곱 하는 이유는 여기 참조 ). 반면, 중앙값은 절대 오차 (L1 표준)를 최소화합니다. 즉, 데이터의 "중간"에있는 값이므로 중앙값으로부터 절대 거리 ( 중간 절대 편차 또는 MAD 라고도 함 )는 중앙값 주변의 변동 정도를 더 잘 측정합니다. 이 스레드 에서이 관계에 대한 자세한 내용을 읽을 수 있습니다 .
간단히 말해, 분산은 데이터의 중심점을 어떻게 정의하는지에 대한 MAD와 다르며 이는 데이터 주변의 데이터 포인트 변동을 측정하는 방법에 영향을 미칩니다. 값을 제곱하면 특이 치가 중심점 (평균)에 더 큰 영향을 미치지 만 중간 값의 경우 모든 점이 동일한 점에 영향을 미치므로 절대 거리가 더 적절 해 보입니다.
이것은 간단한 시뮬레이션으로도 보여 질 수 있습니다. 평균과 중앙값에서 제곱 거리 값을 비교하면 총 제곱 거리는 평균보다 중앙값보다 거의 항상 작습니다. 다른 한편으로, 총 절대 거리는 중앙값보다 작고 평균보다 작습니다. 시뮬레이션을 수행하기위한 R 코드는 다음과 같습니다.
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
이러한 "분산"을 추정 할 때 평균 대신 중간 값을 사용하는 경우 평균이 전통적으로 사용되는 경우보다 추정치가 높아집니다.
그건 그렇고, L1과 L2 규범의 관계는 이 스레드 에서와 같이 베이지안 맥락에서도 고려 될 수 있습니다 .