알려진 그룹 분산, 평균 및 표본 크기를 고려하여 둘 이상의 그룹의 풀 분산을 계산하는 방법은 무엇입니까?


32

요소가 두 그룹 ( 과 ) 으로 나뉘어 있다고 가정 합니다. 첫 번째 그룹의 분산은 이고 두 번째 그룹의 분산은 입니다. 요소 자체는 알 수없는 것으로 가정되지만 및 수단을 알고 있습니다.+σ2σ2μμ

결합 분산 을 계산하는 방법이 있습니까?σ(+)2

분모가되도록 분산 바이어스 될 필요가 없다 아닌 .(+)(+1)


이 그룹의 평균과 분산을 알면 매개 변수 또는 표본 값입니까? 그들은 샘플 수단이 경우 / 사용 안 편차를 와 ...σμσ
조나단 크리스텐슨

방금 기호를 표현으로 사용했습니다. 그렇지 않으면 내 문제를 설명하기 어려웠을 것입니다.
user1809989 2018

1
샘플 값의 경우 일반적으로 라틴 문자 (예 : 에스 )를 사용합니다. 그리스 문자는 일반적으로 매개 변수 용으로 예약되어 있습니다. "올바른"(예상) 기호를 사용하면보다 명확하게 의사 소통하는 데 도움이됩니다.
Jonathan Christensen

걱정 마세요, 이제부터는 따를 게요! 건배
user1809989

1
@Jonathan 이것은 샘플이나 추정에 대한 질문이 아니기 때문에 μσ2 가 데이터 배치의 경험적 분포의 실제 평균과 분산이라는 견해를 합리적으로 고려할 수 있습니다. 라틴 문자를 참조하십시오.
whuber

답변:


36

평균의 정의를 사용하십시오

μ1:=1나는=1엑스나는

및 표본 분산

σ1:n2=1ni=1n(xiμ1:n)2=n1n(1n1i=1n(xiμ1:n)2)

모든 데이터 x i 의 제곱찾기 위해 ( 괄호 안의 마지막 용어는 종종 통계 소프트웨어에서 기본적으로 계산되는 편향 분산 추정량입니다 ) . i = 1 , , n 이 첫 번째 그룹의 요소를 지정하고 i = n + 1 , , n + m 이 두 번째 그룹의 요소를 지정 하도록 인덱스 i를 정렬합시다 . 그룹으로 제곱합을 나누고 데이터 부분 집합의 분산과 수단으로 두 조각을 다시 표현하십시오.xiii=1,,ni=n+1,,n+m

(+)(σ1:+2+μ1:+2)=나는=11:+엑스나는2=나는=1엑스나는2+나는=+1+엑스나는2=(σ1:2+μ1:2)+(σ1+:+2+μ1+:+2).

다른 (알려진) 수량 측면에서 에 대해 대수적으로 해결σm+n2

σ1:m+n2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2)m+nμ1:m+n2.

물론, 동일한 방법을 사용하여, 도 상기 그룹 수단으로 표현 될 수있다.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)


익명의 기고자는 표본 평균이 같을 때 ( ) σ 2 m + n 에 대한 해는 가중 평균임을 나타냅니다. 그룹 표본 분산μ1:n=μ1+n:m+n=μ1:m+nσm+n2


4
"숙제"태그는 그 질문이 기본적이거나 어리 석다는 것을 의미하지는 않습니다. 연구 수준의 쿼리를 포함 할 수있는 자체 학습 질문에 사용됩니다. 일상적인 문맥 상 문제가없는 일반적인 질문 (일반적으로 수학 포럼에 적합 할 수있는 종류의 질문)과 특정 적용된 질문을 구분합니다.
whuber

첫 번째 구절을 이해할 수 없습니다 : 특히 나는 [ ( x μ ) 2 + μ 2 ] = [ x 22 x μ ] 이며 μ = 0 이 필요합니다n(σ2+μ2)=(xμ)2+nμ2=?x2[(xμ)2+μ2]=[x22xμ]μ=0 뭔가 빠졌습니까? 이것을 설명해 주시겠습니까?
DarioP

2
@ 다리오
(엑스μ)2+μ2=(엑스22μ엑스+μ2)+μ2=엑스22μ2+2μ2=엑스2.
whuber

오, 그래, 나는 내 파생에서 바보 같은 기호 실수를 했어, 지금은 분명하다, 고마워!
DarioP

4
각각의 평균과 분산이있는 한 임의의 수의 샘플로 확장 할 수 있다고 생각합니다. R에 풀링 (바이어스)의 표준 편차를 계산하는 것은 간단 sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)여기서 n, urho동일한 길이의 벡터이다. 예 n=c(10, 14, 9)를 들어 세 가지 샘플의 경우
Jonas Lindeløv

3

질문에 사용 된 표기법 대신이 답변에서 표본 평균 및 표본 분산에 표준 표기법을 사용합니다. 표준 표기법을 사용하여 O'Neill (2014) (결과 1) 에서 두 그룹의 풀링 된 표본 분산에 대한 또 다른 공식을 찾을 수 있습니다 .

에스풀링2=11+21[(11)에스12+(21)에스22+121+2(엑스¯1엑스¯2)2].

이 공식은 두 하위 그룹의 기본 표본 평균 및 표본 분산과 직접 작동하며 풀링 된 표본 평균의 중간 계산이 필요하지 않습니다. (연결된 용지의 결과 증명)


-3

예, 두 개 이상의 표본 그룹 각각의 평균, 표본 수 및 분산 또는 표준 편차를 고려하면 결합 된 그룹의 분산 또는 표준 편차를 정확하게 계산할 수 있습니다.

이 웹 페이지는 그 작동 방법과 작동 이유를 설명합니다. 또한 Perl의 소스 코드도 포함합니다 : http://www.burtonsys.com/climate/composite_standard_deviations.html


BTW는 위에 주어진 답변과 달리

(σ2+μ2)    나는=1엑스나는2

예를 들어 R에서 직접 확인하십시오.

> x = rnorm (10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> 평균 (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> 합 (x ** 2)
[1] 319.3486
> 10 * (평균 (x) ** 2 + sd (x) ** 2)
[1] 323.3787

n-1 인자를 잊었 기 때문입니다. 예 : n * (mean (x) ** 2 + sd (x) ** 2 / (n) * (n-1))
user603

user603, 지구상에서 무엇을 이야기하고 있습니까?
Dave Burton

3
데이브, 수학은 소프트웨어보다 더 안정적인 선생님입니다. 이 경우 R숫자 집합의 표준 편차가 아닌 표준 편차의 바이어스되지 않은 추정값을 계산합니다. 예를 들어, 대신에을 sd(c(-1,1))반환합니다 . 대신에 예제를 사용해야 합니다. "해석1.4142141sqrt(9/10)*sd(x)sd(x)σ데이터 의 SD로 "μ" 데이터 의 평균으로 , BTW 발언이 잘못되었습니다.이를 보여주는 프로그램은 다음과 같습니다.n <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.