표본이 어떤 (대칭) 분포에 대해 표본 중앙값보다 효율적인 추정기를 의미합니까?

17

나는 표본 중앙값이 특이 치를 무시하기 때문에 표본 평균보다 중심 경향의 더 강력한 척도라는 신념 아래 노력했다. I 따라서 (에 대한 대답에서 배울 놀랐다 또 다른 질문 정규 분포에서 가져온 샘플, 표본 평균의 분산은 (대형위한 최소한 적은 표본 평균의 분산보다 있음) ). $n$

왜 이것이 사실인지 수학적으로 이해합니다. 다른 분포에 대한 평균보다는 중간 값을 언제 사용해야하는지에 대한 직감에 도움이되는 "철학적"방법이 있습니까?

특정 분포에 대한 질문에 신속하게 답변하는 데 도움이되는 수학적 도구가 있습니까?

— 조쉬 브라운 크라머
소스

20

평균과 분산이 유한 한 대칭 분포로 고려를 제한한다고 가정 해 봅시다 (예를 들어 Cauchy는 고려에서 제외됨).

또한, 나는 처음에는 지속적인 단봉 형 사건으로 제한하고, 실제로는 '좋은'상황으로 (나중에 다시 돌아와서 다른 경우에 대해 논의 할 수도 있지만) 제한 할 것입니다.

상대 분산은 표본 크기에 따라 다릅니다. 점근 적 분산 의 비율 ( 배) 에 대해 논의하는 것이 일반적 이지만, 표본 크기가 작을수록 상황이 약간 다를 수 있음을 명심해야합니다. (중간 값은 때때로 점근 적 행동이 제안하는 것보다 현저히 나아지거나 나빠집니다. 예를 들어, 정규 에서는 63 %가 아닌 약 74 %의 효율을 갖습니다. 샘플 크기입니다.) $n$ $n=3$

무증상은 다음과 같이 다루기가 매우 쉽습니다.

평균 : 분산 = . $n\times$ $\sigma^2$

중앙값 : 분산 = $n\times$ 여기서은 중앙값에서의 밀도의 높이입니다. $\frac{1}{[4f(m)^2]}$ $f(m)$

따라서 이면 , 중간은 점근 적으로 더 효율적입니다. $f(m)>\frac{1}{2\sigma}$

[일반적인 경우, 이므로 $f(m)= \frac{1}{\sqrt{2\pi}\sigma}$ ,의 점근 적 상대 효율)]] $\frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2}$ $2/\pi$

중앙값의 분산은 중심 근처에서 밀도의 거동에 의존하는 반면 평균의 분산은 원래 분포의 분산 (어떤 의미에서 어느 곳에서나 밀도의 영향을 받음)에 따라 달라짐을 알 수 있습니다. 특히, 중심에서 멀어 질수록 더 많이 작용합니다)

즉, 중앙값이 평균보다 특이 치의 영향을 덜받는 반면, 분포가 짙은 꼬리 (더 많은 특이 치를 생성하는 경우)보다 평균보다 분산이 낮다는 사실을 종종 알 수 있습니다. 중앙값은 inliers 입니다. 고정 된 분산의 경우 둘이 함께하는 경향이있는 경우가 종종 있습니다.

즉, 꼬리가 무거워 질수록 분포가 ( 고정 된 ) 분포가 동시에 "피커"가되는 경향이 있습니다 (보다 묵직한, 느슨한 의미). 그러나 이것은 확실한 것은 아닙니다. 일반적으로 고려되는 광범위한 밀도에 걸쳐 나타나는 경향이 있지만 항상 그런 것은 아닙니다. 그것이 유지되면, 중앙값의 분산은 감소 할 것이고 (분포가 중앙값의 바로 근처에서 더 많은 확률을 가지기 때문에) 평균의 분산은 일정하게 유지된다 (우리는 고정했기 때문에 ). $\sigma^2$ $\sigma^2$

따라서 여러 가지 일반적인 경우에 걸쳐 중앙값은 꼬리가 무거울 때 평균보다 "더 나은"경향이있는 경향이 있습니다 (그러나 반례를 구성하는 것이 상대적으로 쉽다는 것을 명심해야합니다). 따라서 우리는 종종 우리가 보는 것을 보여줄 수있는 몇 가지 경우를 고려할 수 있지만 두꺼운 꼬리는 보편적으로 더 높은 피크로 가지 않기 때문에 너무 많이 읽어서는 안됩니다.

우리는 중간이 (효율적으로 63.7 %에 대해 알고 정상에서 평균 큰). $n$

어떻, 발언권 물류 통상 같이 중심을 대략 포물선이지만 (무거운 꼬리를 갖는 분포, 커지면, 그들 지수가 참조). $x$

우리는 1로 스케일 파라미터를 취하면, 물류는 분산 갖는 정도로, 1/4의 중앙값과 높이를 $\pi^2/3$ . 분산의 비율은이므로 큰 표본의 경우 중앙값은 평균보다 약 82 % 효율적입니다. $\frac{1}{4f(m)^2}=4$ $\pi^2/12\approx 0.82$

지수와 같은 꼬리를 가진 두 개의 다른 밀도를 고려하지만 피크는 다릅니다.

먼저, 표준 양식의 분산이 1이고 중심이 쌍곡선 시컨트 ( ) 분포 $\text{sech}$ 점근 차이의 비율이 1 있으므로 (두 큰 샘플 똑같이 효율적이다). 그러나 작은 표본에서 평균이 더 효율적입니다 (예를 들어일때 평균값의 평균값의 약 95 %). $\frac{1}{2}$ $n=5$

여기서 우리는 세 가지 밀도 (분산 상수를 유지)를 진행하면서 중앙값의 높이가 어떻게 증가하는지 확인할 수 있습니다.

여기에 이미지 설명을 입력하십시오

아직도 더 높이 갈 수 있을까요? 실제로 우리는 할 수 있습니다. 예를 들어 double exponential 을 고려하십시오 . 표준 양식에는 분산 2가 있으며 중앙값의 높이는 (다이어그램에서와 같이 단위 분산으로 스케일링하면 피크는 $\frac{1}{2}$ , 0.7 바로 위). 중앙값의 점근 적 분산은 평균의 절반입니다. $\frac{1}{\sqrt{2}}$

주어진 분산에 대해 분포를 더 정점으로 만들면 (아마도 꼬리를 지수보다 무겁게 만들면) 중앙값이 훨씬 더 효율적일 수 있습니다 (상대적으로 말하면). 그 피크가 얼마나 높은지에 대한 제한은 없습니다.

만약 우리가 t- 분포라고 말하는 예를 사용했다면, 비슷한 효과가 보일 것이지만, 진행은 다를 것입니다. 교차점은 df 보다 약간 낮습니다 (실제로 4.68 정도). df가 작을수록 중앙값이 더 효율적이고, df가 클수록 평균이 높습니다. $\nu=5$

...

유한 표본 크기에서는 중간 값 분포의 분산을 명시 적으로 계산할 수 있습니다. 그것이 불가능하거나 심지어 불편한 곳에서 시뮬레이션을 사용하여 분포에서 추출 된 임의의 샘플에 대한 중앙값의 분산 (또는 분산의 비율 *)을 계산할 수 있습니다 (위의 작은 샘플 수치를 얻기 위해 수행 한 것입니다) ).

* 실제로는 평균의 분산이 필요하지 않지만 분포의 분산을 알고 있으면 계산할 수 있으므로 제어 변동 (평균)과 같은 역할을하므로 계산에 더 효율적일 수 있습니다. 중간 값은 종종 매우 상관 관계가 있습니다).

— Glen_b-복귀 모니카
소스

1

꼬리가 두꺼운 경우 평균이 평균보다 일반적으로 더 나은 반면, 평균은 밝은 꼬리에서 가장 좋습니다. 흥미로운 구체적인 예는 밀도 함수 이중 지수 분포 (또는 Laplace) 분포 https://en.wikipedia.org/wiki/Laplace_distribution 입니다.

f (x) = \frac{1}{2} e^{- | x - μ |}, - \infty < x < \infty

$f(x) = \frac12 e^{-|x-\mu|} , \quad -\infty < x < \infty$

μ

$\mu$

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dotsc , X_n$

2 / n

$2/n$

\frac{1}{4 n f (μ)^{2}} = \frac{1}{4 n / 4} = 1 / n < 2 / n

$\frac1{4 n f(\mu)^2} = \frac1{4 n / 4} = 1/n < 2/n$

$\sigma^2 = 1$ $1/n$ $n$ $\frac1{4 n (1/\sqrt{2\pi})^2} = \frac{\pi}{2 n} \approx 1.57/n > 1/n$

— 크 제틸 비 할보 르센
소스