통계 학자들은 (n-1)을 시뮬레이션없이 모집단 분산에 대한 편견 추정량으로 사용하는 데 정확히 어떻게 동의 했습니까?


67

분산을 계산하는 공식 은 분모에 이 있습니다.(n1)

s2=i=1N(xix¯)2n1

나는 항상 이유를 궁금해했다. 그러나 "왜"에 대한 몇 가지 좋은 비디오를 읽고 보는 것은 이 인구 분산의 좋은 편견이 아닌 것 같습니다 . 반면 N 과소 및 ( N - 2 ) 모집단 분산을 과대.(n1)n(n2)

내가 알고 싶은 것은 컴퓨터가없는 시대에이 선택이 정확히 어떻게 이루어 졌는가? 이것을 증명하는 실제 수학적 증거가 있습니까? 아니면 순전히 경험적이며 통계 학자들이 당시 "최상의 설명"을 도출하기 위해 많은 계산을 수동으로 하였습니까?

통계 학자들이 19 세기 초에 컴퓨터의 도움으로 어떻게이 공식을 생각 해냈습니까? 수동 또는 눈을 만나는 것보다 더 많은 것이 있습니까?


13
나는 당신이 " 컴퓨터의 도움 없이 "라고 말하는 것을 의미한다고 가정합니다 . 답은 대수를 사용하여 아마도 놀랍게도입니다. 도출은 매우 간단하며 많은 곳에서 통계학 학생들이 그것을 연습으로 배우거나 저학년처럼 배우는 것이 일반적입니다.
Glen_b

나는 이것이 꽤 좋은 설명을 줄 것이라고 생각한다. en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


내가 사용하는 수식을 편집 한 ˉ X를 은 AS N - 1 분모는위한 샘플 분산 (라틴 문자)가 아닌 인구 분산 (그리스어 문자). s2x¯n1
Alexis

답변:


40

수정은 베셀의 수정 이라고 하며 수학적 증거가 있습니다. 개인적으로, 나는 그것을 쉬운 방법으로 배웠다 : 을 사용하는 것은 E 의 편향을 교정하는 방법이다 [ 1n1(여기참조).E[1n1n(xix¯)2]

또한 자유도 개념을 기반으로 보정을 설명 할 수 있으며 시뮬레이션이 반드시 필요한 것은 아닙니다.


15
(xiμ)2(xix¯)2

2
n-1로 수정해야하는 기하학적 접근 방법도 있습니다 (Saville and Wood : Statistical Methods : Geometric Approach에서 매우 잘 설명). 간단히 말해 : n의 표본은 n 차원 데이터 공간으로 간주 될 수 있습니다. 샘플 포인트 벡터는 p 파라미터에 대응하는 p- 치수를 갖는 모델 벡터 및 np 치수를 갖는 에러 벡터로 분해 될 수있는 관찰 된 벡터에 추가된다. 에러 벡터의 상응하는 피타고라스 해체는 np 제곱을 가지며, 평균은 변화의 척도이다.
giordano

간단한 설명이 포함 된 아름다운 링크를 알려 드리겠습니다. en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

내가 본 대부분의 증명은 Gauss (그러나 그가 한 것임)가 증명하기 매우 쉽다는 것을 충분히 단순하게 보여줍니다.

나는 당신을 연결할 수있는 CV의 파생물을 찾고 있었지만 (답변에 적어도 하나를 포함하여 현장 외부의 증거에 대한 많은 링크가 있습니다), 나는 CV에서 하나를 찾지 못했습니다. 완전성을 위해 간단한 검색을 해 보겠습니다. 단순함을 감안할 때 사람들이 일반적으로 Bessel 's correction 을 사용하기 시작하는 방법을 쉽게 알 수 있습니다 .

E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
2x¯i=1nxi

3
사라지지 않습니다. 마지막 학기의 부호가 바뀌 었습니까?
Glen_b

1
1/n

1
V[x¯]=V[x]n

1
x1x2xni

37

Weisstein의 World of Mathematics에 따르면, 그것은 1823 년에 Gauss에 의해 처음 입증되었습니다. 참조는 Gauss Werke의 4 권이며, https://archive.org/details/werkecarlf04gausrich 에서 읽을 수 있습니다 . 관련 페이지는 47-49로 보입니다. Gauss가 그 질문을 조사하고 증거를 생각 해낸 것 같습니다. 라틴어는 읽지 않지만 텍스트에는 독일어 요약이 있습니다. 103-104쪽에 그가 한 일을 설명하십시오 (편집 : 나는 거친 번역을 추가했습니다) :

Allein da man nicht berechtigt ist, die sichersten Werthe fuer die wahren Werthe selbst zu halten, 그래서 ueberzeugt man sich leicht, dass man durch dieses Verfahren allemal den wahrscheinlichsten und mittleren Fehler zu nesete een eseen eseen eseen esee esee eseen esee esee eseeen ese 히트, si 버섯 als sie wirklich besitzen. [그러나 가장 가능성이 높은 값을 실제 값처럼 취급 할 자격이 없기 때문에 항상 가장 가능성이 높은 오류와 평균 오류가 너무 작으므로 주어진 결과를 스스로 찾아야한다는 것을 쉽게 확신 할 수 있습니다. 실제보다 더 큰 정확도를 가지고 있습니다.]

표본 분산이 모집단 분산의 편향 추정치라는 것은 잘 알려진 것처럼 보입니다. 이 기사에서는 샘플 크기가 충분히 큰 경우 중요하지 않기 때문에 둘 사이의 차이는 일반적으로 무시된다고 말합니다. 그런 다음 말합니다.

Der Verfasser 모자 Daher는 Gegenstand eine besondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen 결과 gefuehrt 모자입니다. 남자 braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, 음에 죽을 리히 티겐 주 verwandeln, nur mit

πρπ

πρπρ

이것이 실제로 교정이 처음 발견 된 경우 Gauss의 현명한 계산에 의해 발견 된 것으로 보이지만 사람들은 이미 일부 교정이 필요하다는 것을 알고 있었기 때문에 다른 사람이 이것을 전에 경험적으로 발견했을 수 있습니다 . 또는 이전 저자는 어쨌든 상당히 큰 데이터 세트로 작업하고 있었기 때문에 정확한 답변을 도출하는 데 신경 쓰지 않았습니다.

n


누군가가 독일어를 번역 할 수 있다면 좋을 것입니다. 나는 독어를 읽지 못한다.
Faheem Mitha 2016 년

2
예, 철자 오류로 인해 Google 번역이 제대로 작동하지 않습니다. 나는 번역을 시도 할 것이다; 내 독일어를 연습하는 좋은 방법이 될 것입니다.
Flounderer 2016 년

14

저에게 직감의 한 가지는

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

그건,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

실제로 위의 방정식을 증명하려면 약간의 대수가 필요합니다 (이 대수는 위의 @Glen_b의 답변과 매우 유사합니다). 그러나 그것이 사실이라고 가정하면 다음과 같이 얻을 수 있습니다.

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

X¯μE[(X¯μ)2]=σ2n


12

대부분의 답변은 이미 정교하게 설명했지만 도움이 될 수있는 간단한 예가 있습니다.

n=4

8,4,6

n=4x¯=68,4,66

n1x¯nthn1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.