당신이에 의해 제곱 오차의 합을 나누는 이유는 수업 시간에 오늘 질문했다 대신에의 , 표준 편차를 계산.N
나는 (내가 불편 추정량에 가고 싶지 않았기 때문에) 클래스에 답변을하지 않을거야 말했지만, 나중에 궁금 - 이 이것에 대한 직관적 인 설명은?!
당신이에 의해 제곱 오차의 합을 나누는 이유는 수업 시간에 오늘 질문했다 대신에의 , 표준 편차를 계산.N
나는 (내가 불편 추정량에 가고 싶지 않았기 때문에) 클래스에 답변을하지 않을거야 말했지만, 나중에 궁금 - 이 이것에 대한 직관적 인 설명은?!
답변:
의 제수로 계산 된 표준 편차는 표본을 추출한 모집단의 표준 편차의 추정값으로 표본에서 계산 된 표준 편차입니다. 관측 값이 평균적으로 모집단 평균보다 표본 평균에 더 가깝기 때문에 표본 평균과의 편차를 사용하여 계산 된 표준 편차는 모집단의 원하는 표준 편차를 과소 평가합니다. 사용하여 N - 1 대신에 N을 제수로하는 결과를 만드는 조금 크게하여 그 교정.
이 클 때보 다 큰 경우에는 수정이 더 큰 비례 효과를 나타냅니다 . 이는 n이 클 때 표본 평균이 모집단 평균을 잘 추정 할 수 있기 때문에 원하는 것입니다.
표본이 전체 모집단 인 경우 표본 평균 이 모집단 평균 이므로 을 제수로 표준 편차를 사용합니다 .
(나는 "알려진 명확한 평균을 중심으로 최근에 두 번째 순간"으로 시작하는 것은 아무것도 직관적 인 설명에 대한 질문자의 요청을 이행하지 않을 것이라는 것을 괄호로 언급한다.)
n−1
대신 n−2
(또는 n−3
)을 사용합니까?
일반적인 방법은 분산의 분포 (분포)가 알려진 명확한 평균을 기준으로 최근에 발표 된 두 번째 순간 인 반면 추정기는 추정 평균을 사용 한다는 것입니다. 이러한 자유도 손실 (평균적으로 데이터 값의 에 대한 지식으로 데이터 세트를 재구성 할 수 있음 )은 결과를 "조정"하기 위해 n 대신 n - 1을 사용해야 합니다.
이러한 설명은 분산 분석 및 분산 성분 분석의 추정 분산과 일치합니다. 정말 특별한 경우입니다.
차이를 부 풀리게하는 약간의 조정 이 필요 하다고 생각합니다 . 사실 실제로 손을 흔드는 것이 아니라 유효한 주장으로 직관적으로 명확하게 할 수 있다고 생각합니다 . (나는 학생이 t- 검정에 관한 그의 1908 년 논문에서 그러한 주장을했을 수도 있음을 기억합니다.) 분산에 대한 조정이 정확히 의 요인이 되어야하는 이유 , 특히 고려할 때 조정 된 SD가 아닌편견없는 견적 자. (이것은 단지 편차의 편견 추정치의 제곱근입니다. 편견이없는 것은 일반적으로 비선형 변환에서 살아남지 못합니다.) 따라서, 편향을 제거하기 위해 SD에 대한 올바른 조정 은 √ 의 요소 가 아닙니다 . !
일부 입문 교과서는 조정 된 sd를 도입하는 것을 귀찮게하지 않습니다. 그들은 하나의 공식을 가르칩니다 ( 나눔 ). 나는 그런 책에서 가르 칠 때 그에 대해 부정적인 반응을 보였지만 개념과 응용에 초점을 맞추기 위해 필자들은 모든 본질적인 수학적 미묘함을 제거했습니다. 아무것도 아프지 않으며 아무도 잘못 인도되지 않습니다.
정의에 따라 분산은 평균과의 제곱 차이의 합을 취하고 크기로 나누어 계산합니다. 우리는 일반적인 공식을 가지고 있습니다
여기서μ는 평균이고N은 모집단의 크기입니다.
이 정의에 따르면 샘플 (예 : 샘플 )의 분산 도이 방식으로 계산해야합니다.
여기서 ¯ X 는 평균이고n은이 작은 표본의 크기입니다.
그러나 표본 분산 모집단 분산 σ 2 의 추정값을 의미합니다 . 표본의 값만 사용하여 σ 2를 어떻게 추정 할 수 있습니까?
상기 식에 따르면, 확률 변수 샘플 평균 일탈 ¯ X 와 분산 σ 2 t . 표본 평균 ¯ X 는 분산 σ 2를 사용 하여 μ 에서 벗어납니다. 표본 평균이 표본마다 다른 값을 가져오고 평균μ및 분산σ2를갖는 랜덤 변수이므로 n . (쉽게 증명할 수 있습니다.)
따라서 대략 는 2 개의 분산을 포함하는 분산으로 μ 에서 벗어나야하므로이 2를 더하고 σ 2 = σ 2 t + σ 2 . 이것을 해결함으로써 우리는σ2=σ 2 t ×n을얻습니다. . σ 2 t를 대치하면 모집단 분산에 대한 추정값이 제공됩니다.
.
하나는 또한 증명할 수있는 사실이다.
당신의 깊은 이해를 얻을 수있는 되지 그건 그냥 왜 혼자 기하학을 통해 용어를 N 하지만 정확히이 형식을 취 이유,하지만 당신은 처음에 대처 당신의 직관을 구축해야 할 수도 있습니다 N 차원 기하학. 그러나 여기서부터는 선형 모델 (예 : 모델 df 및 잔차 df)의 자유도에 대한 심층적 인 이해를위한 작은 단계입니다. 피셔가 이런 식으로 생각 했다는 데는 의심의 여지가 없다고 생각합니다. 점진적으로 쌓아 올리는 책은 다음과 같습니다.
Saville DJ, Wood GR. 통계적 방법 : 기하학적 접근 . 제 3 판. 뉴욕 : Springer-Verlag; 1991. 560 페이지. 9780387975177
(예, 560 쪽. 점진적으로 말씀하셨습니다.)
모집단 분산의 추정치는 모집단의 표본에 적용될 때 바이어스됩니다. 이 바이어스를 조정하려면 n 대신 n-1로 나누어야합니다. 우리는 n 대신 n-1로 나눌 때 표본 분산의 추정값이 편향되어 있지 않다는 것을 수학적으로 보여줄 수 있습니다. 공식적인 증거가 여기에 제공됩니다.
https://economictheoryblog.com/2012/06/28/latexlatexs2/
처음에는 수식으로 이어지는 수학적 정확성이었습니다. 그러나 공식에 직관을 추가하려는 경우 이미 언급 한 제안이 합리적입니다.
첫째, 표본의 관측치는 평균적으로 모집단 평균보다 표본 평균에 더 가깝습니다. 분산 추정기는 표본 평균을 사용하므로 결과적으로 모집단의 실제 분산을 과소 평가합니다. n 대신 n-1로 나누면 해당 바이어스가 수정됩니다.
또한, n-1로 나누면 하나의 요소 샘플의 분산이 0이 아닌 정의되지 않습니다.
왜으로 나누기 이 아닌 N ? 관례적이고 편차의 편견 추정치가 없기 때문입니다. 그러나 Jensen의 불평등을 오목 함수, 제곱근에 적용하면 알 수 있듯이 표준 편차의 편향된 (낮은) 추정치가 발생합니다.
그렇다면 편견없는 견적 도구를 사용하는 것의 장점은 무엇입니까? 반드시 평균 제곱 오차를 최소화 할 필요는 없습니다. 정규 분포에 대한 MLE은 n - 1 대신 으로 나눕니다 . 학생들에게 한 세기 전의 구식 관념을 되풀이하고 무의식적으로 적용하기보다는 생각하도록 가르치십시오.
이는 이차 것을 잘 알려진 (또는 용이하게 입증)는 에서 극값을 갖는 Z = - β . 이는 주어진n실수x1,x2,…,xn에 대해 수량 G(a)= n ∑ i=1(xi−a)2=( n ∑ i = 1 x 2 i )−2a( n ∑ i = 1 xi)+n 최소값을 가질 때 = 1
이제, 가 미지의 평균 μ 및 미지의 분산 σ 2 를 갖는 분포에서 크기 n 의 표본 이라고 가정합니다 . μ 를 1 로 추정 할 수 있습니다 계산하기 쉽지만σ2 를1로 추정하려고합니다.는 우리가μ를모르는 문제에 직면합니다. 우리는 물론, 쉽게 계산할 수 있습니다 G를( ˉ X )우리는 알고G(μ)≥G(,하지만 얼마나 큰G(μ)? 대답은 G(μ)대략 n 의 계수만큼 보다 큼 , 즉, G ( μ ) ≈ N이므로추정치n−1G(μ)=1
따라서 ( 1 )에 대한 직관적 인 설명은 무엇입니까? 음, 우리는 G ( μ )∑ n i = 1 (xi− ˉ x )=n ˉ x −n ˉ x =0 이므로 = G ( ˉ x ) + n ( ˉ x − μ ) 2
This also agrees with defining variance of a random variable as the expectation of the pairwise energy, i.e. let and be independent random variables with the same distribution, then
To go from the random variable defintion of variance to the defintion of sample variance is a matter of estimating a expectation by a mean which is can be justified by the philosophical principle of typicality: The sample is a typical representation the distribution. (Note, this is related to, but not the same as estimation by moments.)
임의 현상이 있다고 가정하십시오. 하나만 얻는다고 다시 가정하십시오. 샘플 또는 실현 . 추가 가정이 없으면 표본 평균에 대한 "유일한"합리적인 선택은. 빼지 않으면 분모에서 (정확하지 않은) 표본 분산은
이상하게도 하나의 표본만으로 분산이 null이됩니다. 그리고 두번째 샘플을 가지고 다음과 같은 경우 분산을 증가시킬 위험이 있습니다. . 말이되지 않습니다. 직관적으로, 무한 분산은 더 좋은 결과 일 것입니다.".
평균을 추정하면 다항식이 차수에 적합합니다. 자유도 (dof)가 1 인 데이터 이 베셀의 보정 은 더 높은 자유도 모델에도 적용됩니다. 물론 완벽하게 맞을 수 있습니다 와 포인트 다항식 dofs. 제로 제곱 오류의 환상은 포인트 수에서 dofs 수를 뺀 값으로 만 균형을 맞출 수 있습니다. 이 문제는 매우 작은 실험 데이터 세트를 다룰 때 특히 중요 합니다.
At the suggestion of whuber, this answer has been copied over from another similar question.
Bessel's correction is adopted to correct for bias in using the sample variance as an estimator of the true variance. The bias in the uncorrected statistic occurs because the sample mean is closer to the middle of the observations than the true mean, and so the squared deviations around the sample mean systematically underestimates the squared deviations around the true mean.
To see this phenomenon algebraically, just derive the expected value of a sample variance without Bessel's correction and see what it looks like. Letting denote the uncorrected sample variance (using as the denominator) we have:
Taking expectations yields:
So you can see that the uncorrected sample variance statistic underestimates the true variance . Bessel's correction replaces the denominator with which yields an unbiased estimator. In regression analysis this is extended to the more general case where the estimated mean is a linear function of multiple predictors, and in this latter case, the denominator is reduced further, for the lower number of degrees-of-freedom.
Generally using "n" in the denominator gives smaller values than the population variance which is what we want to estimate. This especially happens if the small samples are taken. In the language of statistics, we say that the sample variance provides a “biased” estimate of the population variance and needs to be made "unbiased".
If you are looking for an intuitive explanation, you should let your students see the reason for themselves by actually taking samples! Watch this, it precisely answers your question.
The sample mean is defined as , which is quite intuitive. But the sample variance is . Where did the come from ?
To answer this question, we must go back to the definition of an unbiased estimator. An unbiased estimator is one whose expectation tends to the true expectation. The sample mean is an unbiased estimator. To see why:
Let us look at the expectation of the sample variance,
Notice that is a random variable and not a constant, so the expectation plays a role. This is the reason behind the .
As you can see, if we had the denominator as instead of , we would get a biased estimate for the variance! But with the estimator is an unbiased estimator.
I think it's worth pointing out the connection to Bayesian estimation. Suppose you assume your data is Gaussian, and so you measure the mean and variance of a sample of points. You want to draw conclusions about the population. The Bayesian approach would be to evaluate the posterior predictive distribution over the sample, which is a generalized Student's T distribution (the origin of the T-test). This distribution has mean , and variance
which is even larger than the typical correction. (It has degrees of freedom.)
The generalized Student's T distribution has three parameters and makes use of all three of your statistics. If you decide to throw out some information, you can further approximate your data using a two-parameter normal distribution as described in your question.
From a Bayesian standpoint, you can imagine that uncertainty in the hyperparameters of the model (distributions over the mean and variance) cause the variance of the posterior predictive to be greater than the population variance.
My goodness it's getting complicated! I thought the simple answer was... if you have all the data points you can use "n" but if you have a "sample" then, assuming it's a random sample, you've got more sample points from inside the standard deviation than from outside (the definition of standard deviation). You just don't have enough data outside to ensure you get all the data points you need randomly. The n-1 helps expand toward the "real" standard deviation.