N이 증가 할 때 축소되는 변동성은 표본 평균의 변동성이며 종종 표준 오차로 표시됩니다. 또는 다른 말로하면 표본 평균의 정확성에 대한 확실성이 증가하고 있습니다.
남자 3 명과 여자 3 명을 모아서 키를 측정하는 실험을한다고 상상해보십시오. 각 그룹의 평균 키가 남성과 여성의 개별 인구의 실제 평균임을 얼마나 확신하십니까? 나는 당신이 전혀 확신하지 못할 것이라고 생각해야합니다. 3의 새로운 샘플을 쉽게 수집하고 첫 번째 샘플에서 몇 인치의 새로운 수단을 찾을 수 있습니다. 이와 같은 반복되는 실험 중 상당수는 여성보다 남성보다 키가 큰 발음을 유발할 수 있습니다. N이 낮 으면 표본의 평균에 대한 확신이 많지 않으며 표본에 따라 많이 다릅니다.
이제 각 그룹에서 10,000 개의 관측치를 상상해보십시오. 서로 다른 의미를 가진 10,000 개의 새로운 샘플을 찾기 란 꽤 어려울 것입니다. 그것들은 훨씬 덜 가변적이며 정확성이 더 확실합니다.
이 사고 방식을 받아 들일 수 있으면 통계 계산에 표준 오류로 삽입 할 수 있습니다. 방정식에서 알 수 있듯이 매개 변수 (n이 증가함에 따라 더 정확해야 함)를 항상 n, 과 함께 증가하는 값으로 나눈 값을 추정 한 것입니다 . 이 표준 오차는 계산에서 평균 또는 효과의 변동성을 나타냅니다. 작을수록 통계 테스트가 더 강력 해집니다.√σn−−√
다음은 초기 실험의 많은 복제에 대한 표준 오차와 표준 편차의 관계를 보여주는 R의 작은 시뮬레이션입니다. 이 경우 모집단 평균은 100이고 표준 편차는 15입니다.
mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)
최종 표준 편차가 이론적 표준 오차와 어떻게 비슷한 지 확인하십시오. 여기서 n 변수를 사용하면 n이 증가함에 따라 변동성 측정 값이 작아지는 것을 볼 수 있습니다.
[그래서 그래프의 첨도는 실제로 변하지 않습니다 (정규 분포라고 가정). 분산을 낮추더라도 첨도는 변하지 않지만 분포는 더 좁아 보입니다. 첨도 변화를 육안으로 검사 할 수있는 유일한 방법은 분포를 같은 규모로하는 것입니다.]