표준 오류는 어떻게 작동합니까?


17

나는 최근에 표준 오류의 내부 작동을 조사해 왔으며 그것이 어떻게 작동하는지 이해할 수 없다는 것을 알게되었습니다. 표준 오차에 대한 나의 이해는 그것이 표본 평균 분포의 표준 편차라는 것입니다. 내 질문은 :

• 일반적으로 단일 표본 만 채취 할 때 표준 오차가 표본 평균의 표준 편차임을 어떻게 알 수 있습니까?

• 표준 오차를 계산하는 방정식이 단일 표본에 대한 표준 편차 방정식을 반영하지 않는 이유는 무엇입니까?


"단일 샘플"이라고 말하면 하나의 샘플 세트 또는 실제로 1의 샘플 크기를 의미합니까?
Erik

1
이것들은 stats.stackexchange.com/a/18609 에서 일반 비 통계 언어로 간단하지만 흥미로운 문제 (삼항 응답)에 대해 설명합니다 .
whuber

답변:


13

예, 평균의 표준 오차 (SEM)는 평균의 표준 편차 (SD)입니다. (표준 오차는 샘플링 분포의 SD를 나타내는 또 다른 방법입니다.이 경우 샘플링 분포는 고정 된 크기의 샘플을 의미합니다 (N)). SEM과 모집단 SD 사이에는 수학적 관계가 있습니다. SEM = 모집단 SD / N의 제곱근.이 수학적 관계는 SEM에 대한 직접적인 추정은 거의 없지만 모집단 SD (즉, 표본의 SD)는 추정하기 때문에 매우 유용합니다. 두 번째 질문에 대해, N 크기의 여러 샘플을 수집하고 각 샘플의 평균을 계산하는 경우 평균의 SD를 계산하여 SEM을 추정 할 수 있습니다. 따라서 SEM 공식은 실제로 단일 샘플의 SD 공식을 반영합니다.


13

이 독립적이고 동일하게 분포되어 있다고 가정 합니다. 이것은 당신이 언급하고 있다고 확신하는 상황입니다. 공통 평균은 μ 이고 공통 분산은 σ 2둡니다 .X1,X2,,Xnμσ2

Xb=iXi/nXbμXbXi/nσ2/n2n 합으로 분산 된 변수를 가지므로 각 항은 동일한 분산을 갖습니다. 결과적으로, 우리는 얻습니다.nσ2/n2=σ2/n for the variance of the sample mean.

Usually we do not know σ2 and so we must estimate it from the data. Depending on the setting, there are various ways to do this. The two most common, general-purpose estimates of σ2 are the sample variance s2=1ni(XiXb)2 and a small multiple of it, su2=nn1s2 (which is an unbiased estimator of σ2). Using either one of these in place of σ2 in the preceding paragraph and taking the square root gives the standard error in the form of s/n or su/n.


1
This is very good. Do you have suggestions for books or readings to develop similar line of thinking skills. Thanks.
q126y

Elegant answer!
Jinhua Wang

7

+1 to both @JoelW. & @MichaelChernick. I want to add a detail to @JoelW.'s answer. He notes that "we almost never have a direct estimate of the SEM", which is essentially true, but it's worth explicitly recognizing a caveat to that statement. Specifically, when a study compares multiple groups / treatments (for example, placebo vs. standard drug vs. new drug), an ANOVA is typically used to see if they are all equal. The null hypothesis is that each group has been drawn from the same population, and thus, all three means are estimates of the population mean. That is, the null hypothesis in a standard ANOVA assumes that you do have a direct estimate of the SEM. Consider the equation for the variance of the sampling distribution of means:

σx¯2=σpop2nj,
where σpop2 is the population variance, and nj is the number of groups. Although we don't usually perform the calculations in this way, we could simply use standard formulas to plug in estimated values, and with minimal algebraic reshuffling, form the F statistic like so:
F=nj×sx¯2spooled within group2
In this case, we really would be using the standard formula (only applied over the group means), that is:
sx¯2=j=1nj(x¯jx¯.)2nj1,
with x. being the mean of the group means.

In that we typically believe the null hypothesis is not true, @JoelW.'s point is right, but I work through this point, because I think the clarity it affords is helpful for understanding these issues.


2
I think your comment is basically the same as this one, which was written with less mathematical notation: stats.stackexchange.com/questions/32206/…
Joel W.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.