모든 서브 샘플의 샘플 크기가 같으면 수식이 매우 간단합니다. 만약 가지고 있다면 사이즈의 서브 - 샘플 K를 (총 g의 k 개의 샘플), 그 결합 된 샘플의 분산 평균에 따라 E의 J 및 변동 V의 J 각 서브 샘플 :
V R을 ( X 1 , … , X g k ) = k − 1gkgkEjVj로VR(E의J)시료의 분산 수단을 의미한다.
Var(X1,…,Xgk)=k−1gk−1(∑j=1gVj+k(g−1)k−1Var(Ej)),
Var(Ej)
R의 데모 :
> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749
표본 크기가 같지 않으면 수식이 그리 좋지 않습니다.
편집 : 동일하지 않은 샘플 크기에 대한 공식
이 경우 서브 샘플 각각 k 개의 J , J = 1 , ... , g의 총 요소 N = Σ k 개의 J의 값은, 다음
V 형 R은 ( X 1 , ... , X N ) = 1gkj,j=1,…,gn=∑kj
여기서 ˉ X =(∑ g j = 1 kj ˉ X j)/n은 모든 평균의 가중 평균 (모든 값의 평균과 동일)입니다.
Var(X1,…,Xn)=1n−1(∑j=1g(kj−1)Vj+∑j=1gkj(X¯j−X¯)2),
엑스¯= ( ∑지j = 1케이제이엑스¯제이)/n
다시 한 번 시연 :
> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966
(Xji−X¯)2X¯j[(Xji−X¯j)−(X¯j−X¯)]2