중앙값을 사용하여 분산 계산


10

극도로 치우친 1D 랜덤 변수가 있습니다. 이 분포를 정규화하기 위해 평균이 아닌 중앙값을 사용하고 싶습니다. 내 질문은 이것입니다 : 평균 대신 수식의 중앙값을 사용하여 분포의 분산을 계산할 수 있습니까?

즉 교체 할 수 있습니까

V아르 자형(엑스)=[(엑스나는미디엄이자형(엑스))2]/

V아르 자형(엑스)=[(엑스나는미디엄이자형나는(엑스))2]/

이 배후의 나의 추론은 분산이 분포의 중심 경향에 의한 확산의 척도이기 때문에 문제가되어서는 안되지만이 논리를 검증하려고합니다.



1
변수의 중앙값을 중심으로 한 다음 MAD (중앙 절대 편차)로 나누면 중앙값으로 표준화 된 분포를 만들 수 있습니다.
Mike Hunter

5
당신은 이것을 할 수 있습니다! 그러나 나는 그것을 비표준이라고 부르고 직감뿐만 아니라 그것을 백업하기 위해 이론 및 / 또는 시뮬레이션이 필요하다고 제안하는 것이 공정하다고 생각합니다. 나는 그것이 표준 추정기 보다 저항력떨어질 것이라고 생각합니다 . 예를 들어, 오른쪽으로 치우친 일반적인 경우 중앙값이 평균보다 작으므로 (평균값으로부터의) 최대 제곱 편차가 훨씬 커집니다! 중요한 점은 분산이 매우 신뢰할 수없는 경우 분산의 다른 버전이 아닌 분산 측정에 대해 상당히 다르게 생각할 필요가 있다는 것입니다.
Nick Cox

1
직교 점 : "정규화"는 어떤 식 으로든 척도를 의미합니까 (예 : (값) 위치) / 규모 또는 정상에 가까워지는 것을 의미합니까 (가우시안)?
Nick Cox

1
평균값으로 평균을 대체하여 해결되는 문제는 스프레드의 강력한 추정값 대신 분산을 사용하여 확대되기 때문에이 방법은 본질적으로 일관성이 없습니다.
whuber

답변:


9

평균은 제곱 오차 (또는 L2 규범, 여기 또는 여기 참조)를 최소화하므로 평균과의 거리를 측정하는 분산의 제곱 오차는 제곱 오차를 사용하는 것입니다 ( 여기서 제곱 하는 이유는 여기 참조 ). 반면, 중앙값은 절대 오차 (L1 표준)를 최소화합니다. 즉, 데이터의 "중간"에있는 값이므로 중앙값으로부터 절대 거리 ( 중간 절대 편차 또는 MAD 라고도 함 )는 중앙값 주변의 변동 정도를 더 잘 측정합니다. 이 스레드 에서이 관계에 대한 자세한 내용을 읽을 수 있습니다 .

간단히 말해, 분산은 데이터의 중심점을 어떻게 정의하는지에 대한 MAD와 다르며 이는 데이터 주변의 데이터 포인트 변동을 측정하는 방법에 영향을 미칩니다. 값을 제곱하면 특이 치가 중심점 (평균)에 더 큰 영향을 미치지 만 중간 값의 경우 모든 점이 동일한 점에 영향을 미치므로 절대 거리가 더 적절 해 보입니다.

이것은 간단한 시뮬레이션으로도 보여 질 수 있습니다. 평균과 중앙값에서 제곱 거리 값을 비교하면 총 제곱 거리는 평균보다 중앙값보다 거의 항상 작습니다. 다른 한편으로, 총 절대 거리는 중앙값보다 작고 평균보다 작습니다. 시뮬레이션을 수행하기위한 R 코드는 다음과 같습니다.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

이러한 "분산"을 추정 할 때 평균 대신 중간 값을 사용하는 경우 평균이 전통적으로 사용되는 경우보다 추정치가 높아집니다.

그건 그렇고, L1과 L2 규범의 관계는 이 스레드 에서와 같이 베이지안 맥락에서도 고려 될 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.