표본 크기를 늘리면 (샘플링) 분산이 낮아지는 이유는 무엇입니까?


35

큰 그림:

샘플 크기를 늘리면 실험의 힘이 어떻게 증가하는지 이해하려고합니다. 강사의 슬라이드는 두 가지 정규 분포, 하나는 귀무 가설에 대한 것과 다른 하나는 대립 가설에 대한 것, 그리고 그 사이의 결정 임계 값 c를 사용하여 설명합니다. 그들은 표본 크기가 증가하면 분산이 낮아지고 첨도가 높아져 곡선 아래의 공유 영역이 줄어들어 유형 II 오류가 발생할 가능성이 있다고 주장합니다.

작은 사진 :

표본 크기가 클수록 분산이 어떻게 낮아 지는지 이해하지 못합니다.
표본 분산을 계산하여 정규 분포의 모수로 사용한다고 가정합니다.

나는 시도했다 :

  • googling 이지만 대부분 허용되는 답변은 0 개의 찬성표이거나 예일뿐입니다.
  • 사고 : 많은 수의 법칙에 따라 모든 값은 결국 우리가 가정 한 정규 분포에 따라 가능한 값 주위에서 안정화되어야합니다. 따라서 분산은 추정 된 정규 분포의 분산으로 수렴해야합니다. 그러나 정규 분포의 분산은 무엇이며 최소값 입니까? 즉, 표본 분산 해당 값으로 감소 하는지 확인할 수 있습니까?

귀하의 사고 실험은 정규 분포 데이터와 관련이 있지만 다른 많은 분포에서 얻은 데이터에도 적용됩니다 (@Aksakal에서 지적한 것처럼 전부는 아닙니다! Cauchy는 이러한 나쁜 행동의 일반적인 예입니다). 이항 데이터의 경우 stats.stackexchange.com/q/87730/22228
Silverfish

1
CrossValidated를 처음 사용하는 경우 만족스러운 답변으로 생각되는 것을 받으면 왼쪽의 녹색 체크 표시를 클릭하여 "허용됨"으로 표시하는 것을 고려해야합니다. 이는 답변자에게 추가 평판을 제공하고 질문이 해결 된 것으로 표시합니다.
amoeba는 Reinstate Monica

나는 이것에 대해 생각합니다 : 각각의 새로운 포인트는 고유 한 정보를 가지고 있습니다. 무한 점은 완벽한 추정을하기에 충분합니다. 점점 더 많은 새로운 샘플 포인트를 추가 할 때, 완벽한 추정치가 필요한 정보와 실제로 가지고있는 정보의 차이가 점점 작아집니다.
EngrStudent-복원 모니카

이것이 혼란의 원인입니다. 감소하는 샘플 분산이 아니라 샘플 분산의 분산입니다. 표본 분산은 추정값 (임의의 변수)입니다. 데이터가 정규 N (0, 5)에서 나온 경우 표본 분산은 5에 가깝습니다. 얼마나 가까이? 표본 분산에 대한 추정량의 분산에 따라 다릅니다. 100 개의 데이터 포인트가 있으면 4.92와 같은 것을 찾을 수 있습니다. 1000을 사용하면 4.98과 같은 것을 찾을 수 있습니다. 10000에는 5.0001이 있습니다. 측정 자체가 아니라 측정 정확도가 향상됩니다.
앤트

답변:


32

평균의 표준 편차는 개별 관측치의 표준 편차보다 작습니다. [여기서 나는 유한 한 인구 분산으로 독립적으로 동일하게 분포 된 관측을 가정 할 것이다; 처음 두 조건을 완화하면 비슷한 말을 할 수 있습니다.]

두 랜덤 변수의 합의 표준 편차가 표준 편차의 합보다 작다는 간단한 사실의 결과입니다 (두 변수가 완벽하게 상관 된 경우에만 동일 할 수 있음).

실제로 상관없는 랜덤 변수를 다룰 때 좀 더 구체적으로 말할 수 있습니다. 변량 합의 분산은 그 분산의 합입니다.

즉 , 분포가 동일한 독립 (또는 상관되지 않은) 변동이있는 경우 평균의 분산은 표본 크기로 나눈 개인의 분산입니다 .n

이에 대응하여 독립적 인 (또는 심지어 단지 상관)이 동일한 분포 variates, 그 평균의 표준 편차는 샘플 크기의 제곱근으로 나눈 개별의 표준 편차이다 :n

σX¯=σ/n .

따라서 더 많은 데이터를 추가할수록 점점 더 정확한 그룹 평균 추정치를 얻을 수 있습니다. 회귀 문제에도 비슷한 효과가 적용됩니다.

표본 크기를 늘림으로써보다 정확한 평균 추정치를 얻을 수 있기 때문에 분포가 상당히 겹치더라도 표본 크기를 크게하여 표본의 크기를 추정 할 수 있습니다. 인구는 동일하지 않다는 것을 정확하게 알 수 있습니다.


8

N이 증가 할 때 축소되는 변동성은 표본 평균의 변동성이며 종종 표준 오차로 표시됩니다. 또는 다른 말로하면 표본 평균의 정확성에 대한 확실성이 증가하고 있습니다.

남자 3 명과 여자 3 명을 모아서 키를 측정하는 실험을한다고 상상해보십시오. 각 그룹의 평균 키가 남성과 여성의 개별 인구의 실제 평균임을 얼마나 확신하십니까? 나는 당신이 전혀 확신하지 못할 것이라고 생각해야합니다. 3의 새로운 샘플을 쉽게 수집하고 첫 번째 샘플에서 몇 인치의 새로운 수단을 찾을 수 있습니다. 이와 같은 반복되는 실험 중 상당수는 여성보다 남성보다 키가 큰 발음을 유발할 수 있습니다. N이 낮 으면 표본의 평균에 대한 확신이 많지 않으며 표본에 따라 많이 다릅니다.

이제 각 그룹에서 10,000 개의 관측치를 상상해보십시오. 서로 다른 의미를 가진 10,000 개의 새로운 샘플을 찾기 란 꽤 어려울 것입니다. 그것들은 훨씬 덜 가변적이며 정확성이 더 확실합니다.

이 사고 방식을 받아 들일 수 있으면 통계 계산에 표준 오류로 삽입 할 수 있습니다. 방정식에서 알 수 있듯이 매개 변수 (n이 증가함에 따라 더 정확해야 함)를 항상 n, 과 함께 증가하는 값으로 나눈 값을 추정 한 것입니다 . 이 표준 오차는 계산에서 평균 또는 효과의 변동성을 나타냅니다. 작을수록 통계 테스트가 더 강력 해집니다.σn

다음은 초기 실험의 많은 복제에 대한 표준 오차와 표준 편차의 관계를 보여주는 R의 작은 시뮬레이션입니다. 이 경우 모집단 평균은 100이고 표준 편차는 15입니다.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

최종 표준 편차가 이론적 표준 오차와 어떻게 비슷한 지 확인하십시오. 여기서 n 변수를 사용하면 n이 증가함에 따라 변동성 측정 값이 작아지는 것을 볼 수 있습니다.

[그래서 그래프의 첨도는 실제로 변하지 않습니다 (정규 분포라고 가정). 분산을 낮추더라도 첨도는 변하지 않지만 분포는 더 좁아 보입니다. 첨도 변화를 육안으로 검사 할 수있는 유일한 방법은 분포를 같은 규모로하는 것입니다.]


당신은 옳았 고, 더 많은 생각이 앞으로 내 부분에 관여해야한다고 : P
j__

두 가지가 완전히 명확하지는 않습니다. (1) OP가 종 평균의 분포에 대해 말하는 종 곡선이 있습니까? (2) 표본 크기는 대조 그룹 표본의 평균 분포와 실험군 표본의 평균 분포 모두에 대해 고려됩니까?
Lenar Hoyt

4

미국 시민의 평균 체중이 얼마인지 알고 싶다면 이상적인 경우 즉시 모든 시민에게 체중계를 밟아 데이터를 수집하도록 요청하십시오. 당신은 정확한 답변을 얻을 것 입니다. 이것은 매우 어렵 기 때문에 소수의 시민이 규모를 늘리고 평균을 계산하고 인구의 평균이 무엇인지에 대한 아이디어를 얻을 수 있습니다. 표본 평균이 모집단 평균과 정확히 같을 것으로 기대 하십니까? 내가하지 희망.

이제 더 많은 사람들이 생겼다면 어느 시점에서 우리는 인구 평균에 가까워 질 것이라는 데 동의하십니까? 우리는 그래야합니까? 결국 우리가 얻을 수있는 가장 많은 사람들은 전체 인구이며, 그 의미는 우리가 찾고있는 것입니다. 이것이 직관입니다.

이것은 이상적인 사고 실험이었습니다. 실제로는 합병증이 있습니다. 두 가지를 드리겠습니다.

  • 데이터가 Cauchy 분포 에서 나온다고 상상해보십시오 . 표본을 무한정 늘릴 수 있지만 분산은 줄어들지 않습니다. 이 분포에는 모집단 분산이 없습니다. 실제로 엄밀히 말하면 샘플 의미도 없습니다. 슬프다. 놀랍게도이 분포는 매우 실제적이며 물리학에서 여기 저기 나타납니다.
  • 미국 시민의 평균 체중을 결정하는 작업을 계속하기로 결정했다고 상상해보십시오. 그래서, 당신은 당신의 규모를 가지고 집에서 집으로 이동합니다. 몇 년이 걸릴 것입니다. 백만 개의 관측치를 수집 할 때 데이터 세트의 일부 시민은 체중이 많이 변하고 일부는 사망 한 것 등이 있습니다. 요점은이 경우 표본 크기를 늘리는 것이 도움이되지 않는다는 것입니다.

1
첫 문장에서 "평균 체중"을 의미한다고 생각합니다. 나는 생각 실험의 사용을 좋아합니다. 측정 도구에서 또 다른 합병증이 발생할 수 있습니다. 즉, 마모되는 스케일, 시차 오류 또는 다른 변동을 유발하는 사용자 오류가있을 수 있습니다.
MarkR

1

큰 숫자법칙은 표본 크기가 증가 할 때 분산 (표준 오차)이 감소하는 이유를 설명 한다고 생각합니다 . 이에 관한 Wikipedia의 기사는 다음과 같이 말합니다.

법에 따르면, 많은 시도에서 얻은 결과의 평균은 예상 값에 가까워 야하며 더 많은 시도가 수행 될수록 더 가까워지는 경향이 있습니다.

중앙 한계 정리의 관점에서 :

단일 무작위 표본을 추출 할 때 표본이 클수록 표본 평균이 모집단 평균에 가까워 질 것입니다 (위의 인용에서 "시험 횟수"는 "샘플 크기"로 생각하므로 각 "시험"은 관측치입니다) ). 따라서, 무한한 수의 랜덤 샘플을 그릴 때, 샘플링 분포의 분산은 각 샘플의 크기가 클수록 낮아집니다.

다시 말해, 각 샘플 평균이 벨의 중심에 더 가까워 지므로 각 샘플이 작은 것이 아니라 큰 경우 종 모양이 좁아집니다.


0

표본 크기가 증가함에 따라 표본 분산 (관측 간의 변동)은 증가하지만 표본 평균의 분산 (표준 오차)이 감소하여 정밀도가 증가합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.