관측치가 복제 된 경우 표본의 분산이 변하는 이유는 무엇입니까?


25

분산은 스프레드의 척도라고합니다. 그래서 저는 숫자가 균등하게 3,5분산되어 3,3,5,5있기 때문에 분산이 분산과 같다고 생각했습니다 . 그러나 이것은 사실이 아니며, 분산 3,52이고 분산은 3,3,5,5입니다 1 1/3.

분산이 스프레드의 척도라고 가정하면이 문제가 있습니다.

따라서, 그러한 맥락에서, 스프레드 측정은 무엇을 의미합니까?

답변:


32

분산을 에스2=MSE=1나는=1(엑스나는엑스¯)2모집단 분산과 비슷하지만 표본 평균이μ이면 두 표본의 분산이 동일합니다.

따라서 차이는 순전히 표본 분산에 대한 일반적인 공식 의 Bessel 보정 으로 인해 발생합니다 ( 에스12=1MSE=11나는=1(엑스나는엑스¯)2=11나는=1(엑스나는엑스¯)2,표본평균이 모집단 평균보다 데이터에 더 가깝다는 사실을 조정하여 편향되지 않도록합니다 (올바른 값을 " 평균").

n - 1 과 같이 샘플 크기가 증가함에 따라 효과는 점차 사라집니다.1로 1로 이동합니다.

편차에 대해 편향 추정량을 사용해야하는 특별한 이유는 없습니다. 에스2 은 완벽하게 유효한 추정량이며, 경우에 따라 더 일반적인 형태에 비해 이점이있을 수 있습니다 (편견이 반드시 큰 것은 아닙니다) 거래).

분산 자체는 직접 스프레드의 척도가 아닙니다. 데이터 세트의 모든 값을 두 배로 늘리면 두 배의 값이 "확산 됨"이라고 주장합니다. 그러나 분산은 4 배 증가합니다. 따라서 분산보다는 표준 편차가 확산의 척도라고합니다.

물론 표준 편차 (보통 에스1 버전)에서 분산 과 동일한 문제가 발생합니다. 분산에서와 같은 이유로 표준 편차가 점을 두 배로 늘리면 표준 편차가 변경됩니다.

작은 샘플에서 베셀 보정은 그 영향 (샘플을 복제 할 때 값이 변경됨)으로 인해 확산의 척도로서 표준 편차를 다소 덜 직관적으로 만듭니다. 그러나 샘플을 복제 할 때 많은 스프레드 측정 값이 동일한 값을 유지합니다. 몇 가지를 언급하겠습니다.

  • 에스 (물론)

  • 평균과의 평균 (절대) 편차

  • 중앙값으로부터의 중앙값 (절대) 편차

  • 사 분위수 범위 (적어도 표본 사 분위수의 일부 정의의 경우)


3
"편견없는 견적 도구를 사용해야 할 특별한 이유는 없습니다"-실제로는 아무것도 추정 하지 않아도 됩니다 . 그 {3, 5}자체 의 분산은 첫 번째 공식에 따라 1입니다. 지적한 바와 같이, 질문자는 표본으로 추정되는 인구 집단의 분산을 추정하려고 시도했지만 그 여부를 아는 사람은 누구입니까?
Steve Jessop

1

일종의 니모닉으로 V엑스=이자형V엑스+V이자형엑스

일반적인 표본 분산 공식은이를 보완하고 표본 평균의 분산은 표본 크기와 반비례합니다.

극단적 인 예로서, 단일 표본을 취하면 항상 표본 분산이 0으로 나타나고, 기본 분포에 대한 분산이 0으로 표시되지는 않습니다.

2/14/2/14


2
추정값통계 와 함께 사용 함으로써이 답변은 질문을 명확하게하기보다는 혼동합니다. 이 글타래에서 Glen_b의 원래 답변을 읽으십시오. 처음 두 단락의 논증은 의문과 관련이없는 것처럼 보이기 때문에 신비합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.