표준 편차가 분산의 sqrt로 정의되고 N에 대한 제곱합의 sqrt가 아닌 이유는 무엇입니까?


16

오늘 저는 입문 통계를 가르치고 학생이 여기에 다음과 같이 질문합니다. "왜 표준 편차가 분산의 sqrt로 정의되고 N에 대한 제곱의 sqrt로 정의되지 않습니까?"

모집단 분산을 정의합니다 : σ2=1N(xiμ)2

표준 편차 : σ=σ2=1N(xiμ)2 .

우리가 σ에 줄 수있는 해석σ 은 모집단 평균의 와 모집단의 평균 편차를 제공한다는 것입니다 .X

그러나 sd의 정의에서 우리는 제곱의 합의 sqrt를 N . 학생이 제기하는 질문은 우리가 왜 제곱의 제곱의 sqrt를나누지 않는N것입니다. 따라서 우리는 경쟁 공식에 도달합니다 :학생은이 공식이√로나눌 때보 다 평균에서 "평균"편차처럼 보인다고 주장했습니다.

σnew=1N(xiμ)2.
마찬가지로σ.Nσ

나는이 질문이 어리석지 않다고 생각했다. 나는 sd가 평균 제곱 편차 인 분산의 sqrt로 정의 된다고 말하는 것보다 더 나아가 학생에게 대답하고 싶습니다 . 다르게 말하면, 왜 학생은 올바른 공식을 사용해야하며 아이디어를 따라 가지 않아야합니까?

이 질문은 이전 스레드 및 여기에 제공된 답변과 관련됩니다 . 답은 세 가지 방향으로 진행됩니다.

  1. 는 평균과의 "일반적인"편차 (즉, σ n e w )가아니라 RMS (root-mean-squared) 편차입니다. 따라서 다르게 정의됩니다.σσnew
  2. 좋은 수학적 특성을 가지고 있습니다.
  3. 또한 sqrt는 "단위"를 원래 크기로 되돌릴 것입니다. 그러나,이 또한 여기에 해당 될 것이다 에 의해 분할되는, NσnewN 대신 .

포인트 1과 2는 모두 RMS와 같은 sd를 선호하는 인수이지만 사용에 대한 인수는 보이지 않습니다 . 초급 레벨의 학생들에게 평균 RMS 거리 σ 의 평균을 사용하도록 설득하기위한 좋은 주장 은 무엇입니까?σnewσ


2
"왜 표준 편차가 ...로 정의 되었는가?" 정의 는 임의의 레이블 표기 규칙입니다. 그들은 의지에 따를 필요가 없습니다 .
ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"내부 괄호 안에 무엇이 문제에서 길을 잃었을 수 있습니까?
ttnphns

1
그러나 sd는 일련의 목적을 수행합니다. 그렇게 정의 된 것보다 더 나은 동기가 있어야합니다. 특히 학부생을 가르치는 데 유용합니다. 체비 쇼프의 불평등이라는 의미에서 동기 부여를 상상할 수 있습니다 (사소한 비율의 +/- sd의 영역에서 최소 비율의 사례).
tomka

2
Q가 보류 중이기 때문에 대답 할 수 없지만 다음과 같이 시도하십시오 .1과 3의 값이 거의 같은 비율로 관찰된다고 상상해보십시오 (동전 던지기, , T = 1 ). 평균에서 관찰의 "전형적인 거리의"1. 같은 것을해야 H=3T=1공식,n에대한 일반적인 거리 측정에 어떤 일이 발생하는지 고려하십시오. 각각의 경우| xi ˉ x | 1에 가까우므로 제곱의 합은n에가까워집니다. 분자는 √에 가까워집니다SSE/nn|xix¯|n 정도로 수식은 작아 얻을 것n이증가 평균에서 전형적인 거리가 변경되지 않은 경우에도. nn
Glen_b-복귀 모니카

1
@ whuber 나는 또 다른 업데이트를했고 지금 내가 요점을 분명히 밝히기를 바랍니다. 참고 나는 통계의 자금에 관한 질문 외에도 조언을 요구하고 있습니다. 나는 다른 공식을 제안하지는 않지만 즉각적인 답변을 얻지 못한 학생의 좋은 질문에 대한 교실 상황에서 예를 들었습니다. 동의하면 질문을 보류하지 말고 요청하십시오.
tomka

답변:


12

초보자에게 쉽게 설명 할 수있는 최소한 세 가지 기본 문제가 있습니다.

  1. "새로운"SD는 무한한 인구에 대해서도 정의되지 않습니다. (이러한 경우 항상 0으로 선언 할 수는 있지만 더 이상 유용하지는 않습니다.)

  2. 새로운 SD는 무작위 샘플링에서 평균이 수행하는 방식으로 작동하지 않습니다.

  3. 새로운 SD 를 모든 수학적 엄격함과 함께 사용하여 평균 (샘플 및 유한 모집단)의 편차를 평가할 있지만 해석이 불필요하게 복잡합니다.

1. 새로운 SD의 적용은 제한적입니다

분산이 명확하게 산술 평균 (제곱 편차) 이기 때문에 점 (1) 은 "무한"모집단의 모형으로 유용하게 확장 된다는 점을 지적함으로써 통합에 정통하지 않은 사람에게도 집으로 가져올 수 있습니다 . 산술 평균의 직관은 여전히 ​​유효합니다. 따라서 일반적인 SD 인 제곱근은 이러한 경우에도 완벽하게 정의되며 분산의 (비선형 적 표현) 역할에 유용합니다. 그러나 새로운 SD는 그 평균을 임의로 큰 √로 나눕니다. , 유한 인구와 유한 샘플을 넘어 자사의 일반화 문제 렌더링 : 무엇을해야1/N그러한 경우에 N 을 동등한 것으로 간주합니까?1/N

2. 새로운 SD는 평균이 아닙니다

"평균"이라는 이름에 해당하는 모든 통계량은 모집단의 랜덤 표본 크기가 증가함에 따라 모집단 값으로 수렴되는 특성을 가져야합니다. 모든 고정 승수는 샘플 SD 및 인구 SD 컴퓨팅에 모두 적용 것이기 때문에 SD의 여러 건물이 있으며,이 건물있을 것입니다. (Alescos Papadopoulos가 제시 한 주장과 직접적으로 모순되지는 않지만,이 관찰은 그 논거가 실제 문제와 접할뿐임을 시사합니다.) 그러나 "새로운"SD는 시간이 보통 하나에 분명 수렴0샘플 크기가 모든 상황에서N이커질. 따라서,고정 된 표본 크기N에대해 새로운 SD (적절하게 해석 된)는 평균 주위의 변동을 완벽하게 적절하게 측정할 수 있지만보편적으로 간주 될 수는 없습니다.1/N0NN 이지만 모든 해석에 대해 동일한 해석을 통해 적용 가능한 측정 모든 표본 크기에 대해서도 적합하지 않습니다. 유용한 의미에서 "평균"이라고 올바르게 말하십시오.

3. 새로운 SD는 해석과 사용이 복잡합니다

크기가 샘플을 고려하십시오 . 이 경우의 새로운 SD는 1 / N=4시간을 통상의 SD. 그러므로 그것은 예 68-95-99 규칙 아날로그 같은 유사한 해석을 차지하고있다 (데이터의 68 %에 대해 내에 놓여 야내에서의 평균 95 %의 표준 편차의 새로운, 새로운 평균 표준 편차; 체비 쇼프의 의지와 같은 고전적 불평등의 버전 (데이터의1/k2이하는 평균에서2k이상의새로운 SD를 멀리 놓을 수 없음); 그리고 중앙 한계 정리는 새로운 SD의 관점에서 유사하게 복원 될 수있다 (하나는 √로 나눕니다.1/N=1/21/k22k변수를 표준화하기 위해 새로운 SD의 N 배). 따라서이 구체적이고 명확하게 제한된 의미에서 학생의 제안에는 아무런 문제가 없습니다. 그러나 어려운 점은 이러한 진술에 모두 √의 요소가 포함되어 있다는 것입니다.N입니다. 이것에 대한 고유의 수학적 문제는 없지만, 가장 기본적인 통계 법칙의 진술과 해석을 분명히 복잡하게 만듭니다.N=2


가우스와 다른 사람들은 원래 가우스 분포를 효과적으로 사용2σ2


1N not converge to 0 as N grows large, whereas 1N obviously does?
tomka

2
We're comparing the SD of the sample to 1/N times the SD of the sample (the "new SD"). As N grows large, the SD of the sample approaches a (usually) nonzero constant equal to the population SD. Therefore 1/N times the sample SD converges to zero.
whuber

This is standard material--consult any rigorous textbook in mathematical statistics (which, to be fair, would not be accessible to most beginners). However, the results important for my answer follow from a weaker and intuitively obvious statement. Fix a number A>1 and let σ be the population SD. Consider the chance that the sample SD will lie between σ/A and Aσ. It suffices that this chance goes to zero as the sample size N increases. This alone shows that 1/N times the sample SD converges to 0 almost surely, demonstrating point (2) in the answer.
whuber

+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)
Nikos M.

@Nikos Thank you, but what is not scale invariant? Both SD/N and SD change when the data are rescaled.
whuber

5

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.


1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber

2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.