표준 편차를 증가시키는 가치


12

나는 다음 진술에 당황했다.

"숫자 집합의 표준 편차를 증가 시키려면 평균에서 두 개 이상의 표준 편차 인 값을 추가해야합니다."

그 증거 는 무엇입니까 ? 물론 표준 편차를 정의하는 방법을 알고 있지만 그 부분은 어떻게 든 그리워합니다. 다른하실 말씀 있나요?


1
관련된 대수를 해결하려고 했습니까?
Alecos Papadopoulos

네, 있어요. n + 1 값의 분산에서 n 값의 표본 분산을 빼고 차이가 0보다 커야합니다. 그러나 나는 그것을 알아낼 수 없다.
JohnK

3
가장 간단한 방법 중 하나는 새로운 값 과 관련하여 Welford의 알고리즘 을 차별화 한 다음 도입 하면 분산이 증가하면 여기서 은 첫 번째 값 의 평균 이고 은 분산 추정치입니다. x n ( x nˉ x n 1 ) 2nxnxn ˉ x n1n1vn1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber

알았지 만 이것이 간단한 대수로 보여 질 수 있습니까? 통계에 대한 나의 지식은 그렇게 발전된 것이 아닙니다.
JohnK

@ JohnK, 견적의 출처를 알려주시겠습니까?
Pe Dro

답변:


20

들면 모든 번호 평균이 함으로써, 분산 주어진다 적용 중 주어진 숫자 집합에 대해 평균 이라는 박람회의 편의를 위해 취 합니다. y 1 , y 2 , , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)nx1,x2,xnˉx=0σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
이제이 데이터 세트에 새로운 관측 값 을 추가하면 데이터 세트의 새로운 평균은 동안 새 분산은 따라서보다 커야한다xn+1
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1|σ1+1n 또는보다 일반적으로 은 이상으로 원래 데이터 세트 의 평균 와 보강 된 데이터 세트가 원래 데이터 세트보다 더 큰 분산을 가지도록 . 새로운 편차가보다 크다고 지적 레이 쿠프의 대답은, 동일하거나보다 작은, 일본어 분산뿐만있어서 참조 미만 이상으로 평균 상이을 정확히 또는 .xn+1x¯σ1+1nxn+1σ1+1n

5
+1 마침내 누군가가 그것을 얻는다 ... ;-) 증명 될 진술 정확하다; 빡빡하지 않습니다. 또한, 을 만들기 위해 측정 단위를 선택할 수도 있습니다. 이렇게 하면 계산이 더 간단 해져 약 2 줄로 줄어 듭니다. σ2=1
whuber

첫 번째 방정식 세트에서 시그마 대신 S를 사용하고 유도 해 주셔서 감사합니다. 알아두면 좋았습니다 :)
Theoden

3

수수께끼 진술은 표준 편차가 증가하기 위해 필요하지만 불충분 한 조건을 제공합니다. 이전 샘플 크기이면 , 기존의 평균은 이전의 표준 편차이고, , 새로운 포인트는 , 새로운 표준 편차는 동일하거나보다 큰,보다 될 데이터에 추가 항 로 보다 작거나 같습니다 .nmsxs|xm|s1+1/n


1
당신은 손에 증거가 있습니까?
JohnK

2

대수를 제외하고 (이것도 작동합니다) 다음과 같이 생각하십시오. 표준 편차는 분산의 제곱근입니다. 분산은 평균에서 제곱 거리의 평균입니다. 이보다 평균에 가까운 값을 추가하면 분산이 줄어 듭니다. 이 값보다 평균에서 더 큰 값을 추가하면 값이 커집니다.

이것은 음수가 아닌 모든 평균 값에 해당됩니다. 평균보다 높은 값을 추가하면 평균이 증가합니다. 더 작은 값을 추가하면 감소합니다.


나는 또한 엄격한 증거를보고 싶습니다. 나는 원리를 이해하면서 그 값이 평균에서 적어도 1 편차 떨어져 있어야한다는 사실에 의아해합니다. 왜 정확히 1입니까?
JohnK

혼란스러운 것이 보이지 않습니다. 분산은 평균입니다. 평균보다 큰 (즉, 1sd 이상) 무언가를 추가하면 증가합니다. 그러나 저는 공식적인 증거가 아닙니다
Peter Flom-Monica Monica

0.2 표준 편차만큼 평균보다 클 수 있습니다. 그렇다면 왜 증가하지 않습니까?
JohnK

아니요, 데이터의 평균보다 크지 않고, 제곱 거리의 평균 인 분산보다 큽니다.
Peter Flom-Monica Monica 복원

4
새 값을 포함하면 평균이 변경되므로 모든 잔차가 변경되므로 혼동됩니다. 새로운 값이 이전 평균과 거리가 멀더라도 다른 값의 잔차 제곱의 합을 줄임으로써 SD에 대한 기여를 보상 할 수 있다고 생각할 수 있습니다. 이것은 엄격한 증거가 유용한 여러 가지 이유 중 하나입니다. 지식에 대한 보안뿐만 아니라 통찰력 (및 새로운 정보)도 제공합니다. 예를 들어, 증거는이 새로운 값을 추가 할 필요가 있음을 보여줍니다 엄격하게 는 SD를 높이기 위해 평균으로부터 하나 개의 SD보다 더합니다.
whuber

2

나는 당신이 대수학을 시작하게 할 것이지만, 그것을 완전히 받아들이지는 않을 것입니다. 먼저 평균을 빼고 표준 편차 ( 나누어 데이터를 표준화하십시오 가 평균의 하나의 표준 편차 내에 있으면 는 -1과 1 사이입니다. 가 정확히 평균에서 sd 떨어진 경우 Z는 1 입니다. 그런 다음, 표준 편차에 대한 방정식에서 보면 : 어떻게됩니까 경우 사이 -1 그리고 1?xZxσ=

Z=xμσ.
xZx σZN
σ=i=1NZi2N1
σZN

절대 값이 1보다 작은 숫자이며, 제곱 할 때도 절대 값이 1보다 작습니다. 값. 그러나 내가 이해하지 못하는 것은 Z_N이 해당 범주에 속하더라도 σ에 양수 값을 추가하므로 증가해서는 안된다는 것입니다.
JohnK

예, 양수 값을 추가하고 있지만 평균과의 평균 편차보다 작으므로 시그마가 줄어 듭니다. 값을 으로 간주하는 것이 더 합리적 일 수 있습니다 . ZN+1
wcampbell

1
1) 그 값을 추가 할 때 도 1 씩 증가한다는 것을 잊지 마십시오 . 2) 그 값을 에 추가하지 않고 추가합니다 . σ Z 2 iNσZi2
jbowman

내가 표현하려고했던 것!
wcampbell

그렇게 간단하지는 않습니다.이 답변에서 새 값이 이미 데이터 세트의 일부인 것처럼 SD를 계산했습니다. 대신, 는 SD 및 첫 번째 값 의 평균과 관련하여 표준화되어야하며 , 그 값이 전부는 아닙니다. N - 1ZiN1
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.