표준 편차를 계산할 때 로 나누는 직관적 인 설명 ?


136

당신이에 의해 제곱 오차의 합을 나누는 이유는 수업 시간에 오늘 질문했다 대신에의 , 표준 편차를 계산.Nn1n

나는 (내가 불편 추정량에 가고 싶지 않았기 때문에) 클래스에 답변을하지 않을거야 말했지만, 나중에 궁금 - 이것에 대한 직관적 인 설명은?!


29
나는 Numerical Recipes 책에서이 zinger를 인용하고 싶습니다 : "... 과 의 차이 가 당신에게 중요하다면, 아마도 당신은 아마 좋지 않을 것입니다-예를 들어, 의심스러운 가설을 입증하려고 노력하십시오. 한계 데이터와 함께. " n - 1nn1
JM은 통계학자가 아닙니다.

11
매우 우아하고 직관적 인 설명이 여기에 제시되어 있습니다 (증거 아래). en.wikipedia.org/wiki/… 기본 아이디어는 관찰 결과가 자연스럽게 모집단 평균보다 표본 평균에 더 가깝다는 것입니다.
WetlabStudent 16:26에

12
@ 탈, 이것이 학교가 짜증나는 이유입니다. 당신은 "왜 그들에게 ?", 그들은 "그냥 암기"회신 할 수 있습니다.
Pacerier

1
직관적 인 설명을 찾고 있다면 실제로 샘플을 채취하여 자신의 이유를 찾아야합니다! 이것을보고, 그것은 당신에게 질문에 정확하게 대답합니다. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr : (상단 답변 :) "... 샘플 평균의 편차를 사용하여 계산 된 표준 편차는 모집단의 원하는 표준 편차를 과소 평가합니다 ..."참조 : en.wikipedia.org/wiki/… 따라서 다소 복잡한 것을 계산하고 싶지 않다면 샘플에서 나온 경우 n-1을 사용하십시오.
앤드류

답변:


99

의 제수로 계산 된 표준 편차는 표본을 추출한 모집단의 표준 편차의 추정값으로 표본에서 계산 된 표준 편차입니다. 관측 값이 평균적으로 모집단 평균보다 표본 평균에 더 가깝기 때문에 표본 평균과의 편차를 사용하여 계산 된 표준 편차는 모집단의 원하는 표준 편차를 과소 평가합니다. 사용하여 N - 1 대신에 N을 제수로하는 결과를 만드는 조금 크게하여 그 교정.n1n1n

이 클 때보 다 큰 경우에는 수정이 더 큰 비례 효과를 나타냅니다 . 이는 n이 클 때 표본 평균이 모집단 평균을 잘 추정 할 수 있기 때문에 원하는 것입니다.n

표본이 전체 모집단 인 경우 표본 평균 모집단 평균 이므로 을 제수로 표준 편차를 사용합니다 .n

(나는 "알려진 명확한 평균을 중심으로 최근에 두 번째 순간"으로 시작하는 것은 아무것도 직관적 인 설명에 대한 질문자의 요청을 이행하지 않을 것이라는 것을 괄호로 언급한다.)


13
"직관적"과 "비 기술적"을 혼동하지 마십시오.
whuber

32
@ Michael, 이것은 설명하지 않습니다 왜 우리 n−1대신 n−2(또는 n−3)을 사용합니까?
Pacerier

1
@Pacerier 해당 지점에 대한 자세한 내용은 아래 Whuber의 답변을 참조하십시오. 본질적으로, n-1 보정은 우리가 필요로하는 것에 매우 가까운 결과를 제공하기 때문에 보정은 n-2가 아닌 n-1입니다. 보다 정확한 수정 사항은 다음과 같습니다. en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
안녕하세요 @Michael, 왜 표본 평균에서 계산 된 편차가 모집단 평균보다 작은 경향이 있습니까?
Allen

1
"관측 된 값이 평균적으로 모집단 평균보다 표본 평균에 더 가깝기 때문에 표본 평균의 편차를 사용하여 계산 된 표준 편차는 모집단의 원하는 표준 편차를 과소 평가합니다." 표본 평균이 항상 과소 평가되는 이유는 무엇입니까? 과대 평가하면 어떻게 되나요?
Bora M. Alper

55

일반적인 방법은 분산의 분포 (분포)가 알려진 명확한 평균을 기준으로 최근에 발표 된 두 번째 순간 인 반면 추정기는 추정 평균을 사용 한다는 것입니다. 이러한 자유도 손실 (평균적으로 데이터 값의 에 대한 지식으로 데이터 세트를 재구성 할 수 있음 )은 결과를 "조정"하기 위해 n 대신 n - 1을 사용해야 합니다.n1n1n

이러한 설명은 분산 분석 및 분산 성분 분석의 추정 분산과 일치합니다. 정말 특별한 경우입니다.

차이를 부 풀리게하는 약간의 조정 이 필요 하다고 생각합니다 . 사실 실제로 손을 흔드는 것이 아니라 유효한 주장으로 직관적으로 명확하게 할 수 있다고 생각합니다 . (나는 학생이 t- 검정에 관한 그의 1908 년 논문에서 그러한 주장을했을 수도 있음을 기억합니다.) 분산에 대한 조정이 정확히 의 요인이 되어야하는 이유 , 특히 고려할 때 조정 된 SD가 아닌n/(n1)편견없는 견적 자. (이것은 단지 편차의 편견 추정치의 제곱근입니다. 편견이없는 것은 일반적으로 비선형 변환에서 살아남지 못합니다.) 따라서, 편향을 제거하기 위해 SD에 대한 올바른 조정 은 의 요소 가 아닙니다 . !n/(n1)

일부 입문 교과서는 조정 된 sd를 도입하는 것을 귀찮게하지 않습니다. 그들은 하나의 공식을 가르칩니다 ( 나눔 ). 나는 그런 책에서 가르 칠 때 그에 대해 부정적인 반응을 보였지만 개념과 응용에 초점을 맞추기 위해 필자들은 모든 본질적인 수학적 미묘함을 제거했습니다. 아무것도 아프지 않으며 아무도 잘못 인도되지 않습니다.n


1
Whuber 감사합니다. 학생들에게 n-1 교정을 가르쳐야하므로 n만으로 나누는 것은 선택 사항이 아닙니다. 나에게 쓰여진 것처럼, 두 번째 순간과의 연결을 언급하는 것은 옵션이 아닙니다. 평균이 어떻게 이미 추정 되었는가에 대해 언급하지만, sd에 대해 더 적은 "데이터"를 남겨 두는 것이 중요합니다. SD의 편견과 관련하여-나는 그것을 만난 것을 기억했다. Best, Tal
Tal Galili

3
@Tal 나는 당신의 언어가 아닌 학생들의 언어로 글을 쓰고있었습니다. 왜냐하면 당신이 아는 어떤 언어로도 그것을 번역 할 수 있다고 확신하기 때문입니다. 다시 말해서, 나는 당신의 질문에 "직관적"이라고 해석하여 당신에게 직관적임을 의미 합니다 .
whuber

1
안녕하세요 후버 자신감의 투표에 감사드립니다 :). 기대치를 추정하기위한 자유도의 부족은 클래스에서 사용하려고 생각한 것입니다. 문제는 "자유도"라는 개념 자체가 지식 / 직관이 필요한 개념이라는 것입니다. 그러나이 스레드에 제공된 다른 답변 중 일부와 결합하면 유용 할 것입니다 (나에게 미래에 다른 사람들이 있기를 바랍니다). Best, Tal
Tal Galili

의 경우 일반적으로 n 또는 n - 1로 나누는 것에는 큰 차이가 없으므로 큰 샘플에 적용하려는 경우 수정되지 않은 수식을 도입하는 것이 좋습니다. nnn1
PatrickT

1
이 때문에 @Patrick 당신은 내 대답에 너무 많이 읽는 될 수 있습니다 그들은 교육적하고 있는지 여부와는 아무 상관이 없다 : 이유에 대해 명시 적 큰 여부입니다. n
whuber

50

정의에 따라 분산은 평균과의 제곱 차이의 합을 취하고 크기로 나누어 계산합니다. 우리는 일반적인 공식을 가지고 있습니다

여기서μ는 평균이고N은 모집단의 크기입니다.σ2=iN(Xiμ)2NμN

이 정의에 따르면 샘플 (예 : 샘플 )의 분산 도이 방식으로 계산해야합니다.t

여기서 ¯ X 는 평균이고n은이 작은 표본의 크기입니다.σt2=in(XiX¯)2nX¯n

그러나 표본 분산 모집단 분산 σ 2 의 추정값을 의미합니다 . 표본의 값만 사용하여 σ 2를 어떻게 추정 할 수 있습니까?S2σ2σ2

상기 식에 따르면, 확률 변수 샘플 평균 일탈 ¯ X 와 분산 σ 2 t . 표본 평균 ¯ X 는 분산 σ 2를 사용 하여 μ 에서 벗어납니다.XX¯σt2X¯μ 표본 평균이 표본마다 다른 값을 가져오고 평균μ및 분산σ2를갖는 랜덤 변수이므로 nσ2nμ . (쉽게 증명할 수 있습니다.)σ2n

따라서 대략 는 2 개의 분산을 포함하는 분산으로 μ 에서 벗어나야하므로이 2를 더하고 σ 2 = σ 2 t + σ 2Xμ . 이것을 해결함으로써 우리는σ2=σ 2 t ×n을얻습니다.σ2=σt2+σ2n . σ 2 t를 대치하면 모집단 분산에 대한 추정값이 제공됩니다.σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

하나는 또한 증명할 수있는 사실이다.E[S2]=σ2


나는 이것이 너무 사소하지 않기를 바랍니다 : 표본 평균이 ND ( , σ로 수렴한다는 사실 입니까?μ ) n이 임의로 커짐에 따라 표본 평균이 분산σ2 인실제 평균에서 벗어난 이유σn ? σ2n
RexYuan

6
통계 용어로 간단히 yagga yagga 대신 방정식과 유도를 보여주기 때문에 이것은 다른 것보다 더 나은 설명입니다.
Nav

1
@sevenkul 어떻게 이것을 시각적으로 볼 수 있습니까? 당신이 말할 때, X는 그 순 분산으로 에서 벗어나야합니다 . 나는 그것을 시각화하는데 빠져 있습니다.μ
Parthiban Rajendran

17

이것은 전체 직관이지만 가장 간단한 대답은 한 요소 샘플의 표준 편차를 0이 아닌 정의되지 않도록 수정하는 것입니다.


11
그렇다면 왜 n을 사용하지 또는1nn21 를 수정? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
은 훨씬 더 "유명하다". :-)1n1
whuber

2
@mbq, 당신의 대답 ~에 대해서는 "이 보정 한 요소 정의되지 않은 샘플이 아니라 영의 표준 편차를 만들기 위해 만들어졌다"이다 진짜 이유는 왜, 또는이 농담의 대답은? 당신은 우리와 같은 비수용 인이 말할 수 없다는 것을 알고 있습니다.
Pacerier

4
공식적으로, 그것은 이성보다 결과이지만, 내가 썼을 때, 나는 그것을 암기하는 데 좋은 직관임을 알게되었습니다.

14

당신의 깊은 이해를 얻을 수있는 되지 그건 그냥 왜 혼자 기하학을 통해 용어를 N 하지만 정확히이 형식을 취 이유,하지만 당신은 처음에 대처 당신의 직관을 구축해야 할 수도 있습니다 N 차원 기하학. 그러나 여기서부터는 선형 모델 (예 : 모델 df 및 잔차 df)의 자유도에 대한 심층적 인 이해를위한 작은 단계입니다. 피셔가 이런 식으로 생각 했다는 데는 의심의 여지가 없다고 생각합니다. 점진적으로 쌓아 올리는 책은 다음과 같습니다.n1nn

Saville DJ, Wood GR. 통계적 방법 : 기하학적 접근 . 제 3 판. 뉴욕 : Springer-Verlag; 1991. 560 페이지. 9780387975177

(예, 560 쪽. 점진적으로 말씀하셨습니다.)


고맙습니다 원 스톱-그 방향에서 답이있을 것이라고 생각하지 않았습니다. 직관을 요약 할 수있는 방법이 있습니까, 아니면 가능하지 않을까요? 건배, 탈
탈 Galili

나는 그렇게 할 수 없었지만, 서평가는 Amer의 단락에서 그 접근법을 요약했다. 통계 1993 년 : jstor.org/stable/2684984 . 전체 과정에 적용하지 않는 한 학생들 에게이 접근법을 사용하는 것이 실제로 실용적이지 않습니다.
onestop

책 참조가 아닌 약간의 직관을 요약 할 수 있습니까?
oliversm

12

모집단 분산의 추정치는 모집단의 표본에 적용될 때 바이어스됩니다. 이 바이어스를 조정하려면 n 대신 n-1로 나누어야합니다. 우리는 n 대신 n-1로 나눌 때 표본 분산의 추정값이 편향되어 있지 않다는 것을 수학적으로 보여줄 수 있습니다. 공식적인 증거가 여기에 제공됩니다.

https://economictheoryblog.com/2012/06/28/latexlatexs2/

처음에는 수식으로 이어지는 수학적 정확성이었습니다. 그러나 공식에 직관을 추가하려는 경우 이미 언급 한 제안이 합리적입니다.

첫째, 표본의 관측치는 평균적으로 모집단 평균보다 표본 평균에 더 가깝습니다. 분산 추정기는 표본 평균을 사용하므로 결과적으로 모집단의 실제 분산을 과소 평가합니다. n 대신 n-1로 나누면 해당 바이어스가 수정됩니다.

또한, n-1로 나누면 하나의 요소 샘플의 분산이 0이 아닌 정의되지 않습니다.


12

왜으로 나누기 이 아닌 N ? 관례적이고 편차의 편견 추정치가 없기 때문입니다. 그러나 Jensen의 불평등을 오목 함수, 제곱근에 적용하면 알 수 있듯이 표준 편차의 편향된 (낮은) 추정치가 발생합니다.n1n

그렇다면 편견없는 견적 도구를 사용하는 것의 장점은 무엇입니까? 반드시 평균 제곱 오차를 최소화 할 필요는 없습니다. 정규 분포에 대한 MLE은 n - 1 대신 으로 나눕니다 . 학생들에게 한 세기 전의 구식 관념을 되풀이하고 무의식적으로 적용하기보다는 생각하도록 가르치십시오.nn1


8
(+1)이 상황에 대해 더 많이 생각할수록 이 출현 한시기 와 이유를 추적하기 위해 Student의 1908 Biometrica 기여와 같은 초기 논문을 연구 할 정도로 실제적인 생각을했습니다. ), "관습 적이기 때문에"유일하게 가능한 정답이라고 생각합니다. 나는 downvotes를보고 불행하고 그들이 당신의 의도가 의심스러운 경우에도 OP를 공격하는 것으로 쉽게 보일 수있는 마지막 문장에 응답하고 있다고 추측 할 수 있습니다. n1
whuber

1
마지막 문장은 OP에 대한 공격이 아니라 모든 관련자들에게 우호적 인 조언이었습니다.
Mark L. Stone

많은 사용에서 테스트 또는 신뢰 구간에 사용될 때 절차의 다른 부분을 조정하고 결국 동일한 결과를 얻어야합니다!
kjetil b halvorsen

8

이는 이차 것을 잘 알려진 (또는 용이하게 입증)는 에서 극값을 갖는 Z = - βαz2+2βz+γ . 이는 주어진n실수x1,x2,,xn에 대해 수량 G(a)= n i=1(xia)2=( n i = 1 x 2 i )2a( n i = 1 xi)+nz=βαnx1,x2,,xn 최소값을 가질 때 = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
입니다.a=1ni=1nxi=x¯

이제, 가 미지의 평균 μ 및 미지의 분산 σ 2 를 갖는 분포에서 크기 n 의 표본 이라고 가정합니다 . μ1 로 추정 할 수 있습니다xinμσ2μ 계산하기 쉽지만σ21로 추정하려고합니다.1ni=1nxi=x¯σ2는 우리가μ를모르는 문제에 직면합니다. 우리는 물론, 쉽게 계산할 수 있습니다 G를( ˉ X )우리는 알고G(μ)G(1ni=1n(xiμ)2=n1G(μ)μG(x¯),하지만 얼마나 큰G(μ)? 대답은 G(μ)G(μ)G(x¯)G(μ)G(μ)대략 n계수만큼 보다 큼G(x¯) , 즉, G ( μ ) Nnn1이므로추정치n1G(μ)=1

(1)G(μ)nn1G(x¯)
분포의 분산에 대한 n n i=1(xiμ)21에의해 근사 될 수 있습니다 n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

따라서 ( 1 )에 대한 직관적 인 설명은 무엇입니까? 음, 우리는 G ( μ )(1) n i = 1 (xi ˉ x )=n ˉ xn ˉ x =0 이므로 = G ( ˉ x ) + n ( ˉ xμ ) 2

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0 . 지금, 모든xiμ보다 큰비정상적으로 특이한 표본이있는 경우를 제외하고(또는 모두 μ), 소환(xiμ)
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ 의 오른쪽에 두 배의 합 ( 3 )(xiμ)(xjμ)(3)음수 값뿐만 아니라 양수 값을 취하므로 많은 취소가 발생합니다. 따라서 double sum은 절대 값 이 작을 것으로 예상 할 수 있으며 1 과 비교하여 간단히 무시합니다.(3)의 오른쪽에있는 n G(μ)항. 따라서(2)G(μ)G( ˉ x )+1이됩니다.1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
이 스택 교환에서만 직관적 인 답변으로 간주됩니다.
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

This also agrees with defining variance of a random variable as the expectation of the pairwise energy, i.e. let X and Y be independent random variables with the same distribution, then

V(X)=E((XY)22)=E((XE(X))2).

To go from the random variable defintion of variance to the defintion of sample variance is a matter of estimating a expectation by a mean which is can be justified by the philosophical principle of typicality: The sample is a typical representation the distribution. (Note, this is related to, but not the same as estimation by moments.)


2
I couldn't quite follow you at the last paragraph. Isn't mathematical fact that V(X)=E((XY)22)=E((XE(X))2)? Even though the equation is interesting, I don't get how it could be used to teach n-1 intuitively?
KH Kim

4
I like this approach, but it omits a key idea: to compute the mean energy between all pairs of sample points, one would have to count the values (xixi)2, even though they are all zero. Thus the numerator of s2 remains the same but the denominator ought to be n, not n1. This shows the sleight-of-hand that has occurred: somehow, you need to justify not including such self-pairs. (Because they are included in the analogous population definition of variance, this is not an obvious thing.)
whuber

4

임의 현상이 있다고 가정하십시오. 하나만 얻는다고 다시 가정하십시오.=1 샘플 또는 실현 엑스. 추가 가정이 없으면 표본 평균에 대한 "유일한"합리적인 선택은¯=엑스. 빼지 않으면1 분모에서 (정확하지 않은) 표본 분산은

V=(엑스¯)2
또는

V¯=(엑스¯)21=0.

이상하게도 하나의 표본만으로 분산이 null이됩니다. 그리고 두번째 샘플을 가지고와이 다음과 같은 경우 분산을 증가시킬 위험이 있습니다. 엑스와이. 말이되지 않습니다. 직관적으로, 무한 분산은 더 좋은 결과 일 것입니다.1=0".

평균을 추정하면 다항식이 차수에 적합합니다. 0자유도 (dof)가 1 인 데이터 이 베셀의 보정 은 더 높은 자유도 모델에도 적용됩니다. 물론 완벽하게 맞을 수 있습니다+1 와 포인트 다항식 +1dofs. 제로 제곱 오류의 환상은 포인트 수에서 dofs 수를 뺀 값으로 만 균형을 맞출 수 있습니다. 이 문제는 매우 작은 실험 데이터 세트를 다룰 때 특히 중요 합니다.


It is unclear why "an infinite variance would be a sounder result" than a zero variance. Indeed, you seem to use "sample variance" in the sense of a variance estimator, which is more confusing yet.
whuber

1
I understand. To answer an intuitive explanation between two options, I tried to suggest that one of the two is somehow unacceptable, based on the mundane rule that 0<. A rephrasing is indeed necessary, and upcoming
Laurent Duval

4

At the suggestion of whuber, this answer has been copied over from another similar question.

Bessel's correction is adopted to correct for bias in using the sample variance as an estimator of the true variance. The bias in the uncorrected statistic occurs because the sample mean is closer to the middle of the observations than the true mean, and so the squared deviations around the sample mean systematically underestimates the squared deviations around the true mean.

To see this phenomenon algebraically, just derive the expected value of a sample variance without Bessel's correction and see what it looks like. Letting S2 denote the uncorrected sample variance (using n as the denominator) we have:

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Taking expectations yields:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

So you can see that the uncorrected sample variance statistic underestimates the true variance σ2. Bessel's correction replaces the denominator with n1 which yields an unbiased estimator. In regression analysis this is extended to the more general case where the estimated mean is a linear function of multiple predictors, and in this latter case, the denominator is reduced further, for the lower number of degrees-of-freedom.


Thanks for the proof!
upupming

0

Generally using "n" in the denominator gives smaller values than the population variance which is what we want to estimate. This especially happens if the small samples are taken. In the language of statistics, we say that the sample variance provides a “biased” estimate of the population variance and needs to be made "unbiased".

If you are looking for an intuitive explanation, you should let your students see the reason for themselves by actually taking samples! Watch this, it precisely answers your question.

https://www.youtube.com/watch?v=xslIhnquFoE


0

The sample mean is defined as X¯=1ni=1nXi, which is quite intuitive. But the sample variance is S2=1n1i=1n(XiX¯)2. Where did the n1 come from ?

To answer this question, we must go back to the definition of an unbiased estimator. An unbiased estimator is one whose expectation tends to the true expectation. The sample mean is an unbiased estimator. To see why:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Let us look at the expectation of the sample variance,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

Notice that X¯ is a random variable and not a constant, so the expectation E[X¯2] plays a role. This is the reason behind the n1.

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

As you can see, if we had the denominator as n instead of n1, we would get a biased estimate for the variance! But with n1 the estimator S2 is an unbiased estimator.


3
But it doesn't follow that S is an unbiased estimator of the standard deviation.
Scortchi

-1

I think it's worth pointing out the connection to Bayesian estimation. Suppose you assume your data is Gaussian, and so you measure the mean μ and variance σ2 of a sample of n points. You want to draw conclusions about the population. The Bayesian approach would be to evaluate the posterior predictive distribution over the sample, which is a generalized Student's T distribution (the origin of the T-test). This distribution has mean μ, and variance

σ2(n+1n1),

which is even larger than the typical correction. (It has 2n degrees of freedom.)

The generalized Student's T distribution has three parameters and makes use of all three of your statistics. If you decide to throw out some information, you can further approximate your data using a two-parameter normal distribution as described in your question.

From a Bayesian standpoint, you can imagine that uncertainty in the hyperparameters of the model (distributions over the mean and variance) cause the variance of the posterior predictive to be greater than the population variance.


-4

My goodness it's getting complicated! I thought the simple answer was... if you have all the data points you can use "n" but if you have a "sample" then, assuming it's a random sample, you've got more sample points from inside the standard deviation than from outside (the definition of standard deviation). You just don't have enough data outside to ensure you get all the data points you need randomly. The n-1 helps expand toward the "real" standard deviation.


3
This doesn't make sense. More points from inside the SD than outside? If that means within 1 SD of the mean versus not within, whether that is true has nothing to do with taking a sample. For necessary constraints on fractions within intervals around the mean, see Chebyshev's inequality. To the main question here, "helps expand" doesn't explain n1 at all, as even granting your argument n2 might be better still, and so forth, as there is no algebra here, even implicitly. Unfortunately this adds nothing to other answers except a confused set of ideas, either incorrect or irrelevant.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.