가중 표준 편차는 어떻게 계산합니까? Excel에서?


29

따라서 다음과 같은 백분율 데이터 세트가 있습니다.

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

백분율의 표준 편차를 찾고 싶지만 데이터 볼륨에 가중치를 둡니다. 즉, 첫 번째 및 마지막 데이터 포인트가 계산을 지배해야합니다.

어떻게합니까? 그리고 Excel에서 간단한 방법이 있습니까?


(M-1) / M의 공식이 정확합니다. 의심스러운 경우 모든 가중치를 1로 설정하여 확인하십시오. 분모에서 (N-1)을 사용하여 표준 편차에 대한 편견 추정치에 대한 고전적인 공식을 얻게됩니다. whuber : 비정상적인 것은 틀린 것을 의미하지 않습니다.

1
(M-1) / M의 공식은 정확하지 않습니다. 1 조의 무게로 백만 포인트를 추가한다고 상상해보십시오. 가중치에 관계없이 답을 전혀 바꾸지 않지만 기간은 1이됩니까? 절대적으로하지! 당신이 을 신경 , 이것이 잘못되었다는 것 또한 걱정합니다. (M1)/M(M1)/M1
Rex Kerr


표준 편차를 원하는지 궁금 합니다. 당신은 숫자 만 있습니다 ! 얼마나 많은 숫자입니까? 특히 백분율을보다 쉽게 ​​설명하고 이해할 때. 4
probabilityislogic

@probabilityislogic 질문을 짧게 유지하는 간단한 예였습니다.
Yahel

답변:


35

가중 표준 편차공식 은 다음과 같습니다.

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

어디에

N 은 관측치의 수입니다.

M 은 0이 아닌 가중치의 수입니다.

wi 는 가중치입니다

xi 는 관측치입니다.

x¯ 는 가중 평균입니다.

가중 평균의 공식은 다음과 같습니다.

x¯=i=1Nwixii=1Nwi.

원하는 결과를 얻으려면 적절한 가중치를 사용하십시오. 귀하의 경우 를 사용하는 것이 좋습니다 .Number of cases in segmentTotal number of cases

Excel에서이를 수행하려면 먼저 가중 평균을 계산해야합니다. 그런 다음 별도의 열에서 를 계산하십시오 . 나머지는 매우 쉬워야합니다.(xix¯)2


2
@Gilles, 네 말이 맞아. deps_stats, SD 의 분수 은 드문 경우입니다. 이 공식에 대한 인용이 있거나 적어도 해당 용어를 포함시킨 이유를 설명 할 수 있습니까? (M1)/M
whuber

4
@Aaron Weights가이 질문에 주어진 가중치로 예시 된 것처럼 항상 단일성으로 합산되는 것은 아닙니다!
whuber

2
(-1) 항에 대한 타당성 또는 참조가 제공되지 않았기 때문에이 답변을 하향 조정하고 있습니다 분산의 추정치가 편향 되지 않도록 확신합니다. 자극). (M1)/M
whuber

1
추가 된 참조 (권한이 아니지만 참조)에 비추어 downvote를 제거하고 있습니다. 계산에 따르면 제안 된 가중치가 바이어스되지 않은 것으로 추정 되지 않습니다 (모든 가중치가 경우 제외 ). 답이 아니라 문제의 결점 인 여기서의 실제 난점은이 "가중 표준 편차"가 무엇을 추정하려고하는지 명확하지 않다는 것입니다. 명확한 추정치가 없으면 "편향을 줄이려면"(또는 다른 이유로) 요소를 도입하는 것이 정당하지 않습니다 . 1(M1)/M
whuber

1
@Mikhail 당신은 "비정상적인"과 "옳은"이 서로 관련이 없다는 것이 맞습니다. 그러나 비정상적인 결과는 암시 적으로 조금 더 정당성을 요구합니다. 비정상적인 것은 오류가 발생했음을 나타내는 하나의 지표이기 때문입니다. 귀하의 주장은 유효하지 않습니다 : 모든 가중치가 같을 때 공식이 바이어스되지 않은 추정량에 대해 1로 감소하지만, 이는 동일하지 않은 가중치가 사용될 때 추정치가 바이어스되지 않은 것을 의미하지는 않습니다. 나는 당신의 결론이 잘못되었다고 주장하지는 않지만, 지금까지는 정당한 정당성이 제시되지 않았습니다.
whuber

18

공식은 Wikipedia를 포함한 다양한 곳에서 사용할 수 있습니다 .

열쇠는 그것이 무게의 의미에 달려 있다는 것을 알아 차리는 것입니다 . 특히, 가중치가 주파수 인 경우 (즉, 전체 합계를 합산하지 않으려는 경우) 가중치가 실제로 각 측정 값의 편차이거나 외부 값인 경우 다른 답변을 얻을 수 있습니다. 데이터를 부과하십시오.

귀하의 경우 가중치는 주파수 인 것처럼 보이지만 그렇지 않습니다 . 주파수에서 데이터를 생성하지만 데이터 세트에 3 개 45 개 레코드와 4 개 15 개 레코드를 갖는 것은 간단하지 않습니다. 대신 마지막 방법을 사용해야합니다. (사실,이 모든 쓰레기 - 당신은 정말 ! 당신은 분명히 않는이 숫자를 생성하는 프로세스의보다 정교한 모델을 사용할 필요가 없습니다 일반적으로 분산 번호를 내뿜으며, 그래서 표준 편차와 시스템을 특성화하는 것이 뭔가를 올바른 일이 아닙니다.)

어쨌든 "신뢰도"가중치를 갖는 분산 공식 (일반적인 방법으로 표준 편차를 계산하는 공식)은 다음과 같습니다.

wi(xix)2wiwi2wi

여기서 는 가중 평균입니다.x=wixi/wi

당신은 무게에 대한 추정치를 가지고 있지 않습니다, 나는 당신이 신뢰성에 비례하기를 원한다고 가정합니다. Bernoulli 프로세스에 의해 생성 된 경우에도 백분율을 사용하면 분석이 까다로워집니다. 점수가 20과 0이면 무한한 백분율이 있기 때문입니다. SEM의 역으로 ​​가중치를 적용하는 것이 일반적이며 때로는 최적의 방법입니다. Bayesian 추정값 또는 Wilson 점수 간격을 사용해야 합니다 .


2
+1. 가중치의 다른 의미에 대한 논의는 내가이 실에서 내가 찾던 것입니다. 가중 통계에 대한이 사이트의 모든 질문에 중요한 기여를합니다. (정규 분포와 표준 편차에 관한 괄호 적 언급에 대해서는 약간 우려하고있다. 왜냐하면 SD는 정규성에 기반한 모델 밖에서는 사용하지 않는다고 잘못 지적하기 때문이다.)
whuber

@whuber-물론, 구조에 대한 중앙 제한 정리! 그러나 OP 가하고있는 일에 대해 평균 및 표준 편차가있는 숫자 세트를 특성화하려고 시도하는 것은 매우 바람직하지 않습니다. 그리고 일반적으로, 많은 사용에서 표준 편차는 하나를 잘못된 이해 느낌으로 만듭니다. 예를 들어 분포가 정규 (또는 그 근사치) 이외의 것이라면 표준 편차에 의존하면 통계에서 가장 중요하게 고려할 수있는 꼬리 일 때 꼬리 모양에 대한 잘못된 생각을 갖게됩니다. 테스트.
Rex Kerr

@RexKerr 사람들이 가치가없는 해석을한다면 표준 편차를 탓할 수 없습니다. 그러나 정규성에서 벗어나 유한 분산 (예를 들어)을 갖는 훨씬 광범위한 연속, 대칭 단변 분포를 고려해 봅시다. 그런 다음 분포의 89 ~ 100 %가 두 표준 편차 내에 있습니다. 그것은 종종 아는 것이 매우 유용합니다 (95 %가 중간 정도에 있기 때문에 약 7 %를 넘지 않습니다). 공통 분포가 많은 경우, 낙하 대칭 측면은 크게 변하지 않습니다 (예를 들어 지수를 살펴보십시오) .... ctd
Glen_b -Reinstate Monica

ctd ...-또는 만약 우리가 그러한 가정을하지 않는다면, 꼬리와 표준 편차에 대해 적어도 말을하는 일반적인 Chebyshev 경계가 항상 있습니다.
Glen_b-복지국 Monica

1
@Gabriel-예, 죄송합니다. (나는 사람들이 어떤 것을 보았는지 알 수 있다고 생각한다)
Rex Kerr

5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

G은 가중치, 열 H은 값


Ctrl + Shift + Enter를 사용하면 나에게 큰 어려움이 있었지만 그렇지 않은 것처럼 보입니다.
philipkd

1

: 우리는 확률과 같은 가중치를 취급한다면, 우리는 그들로 다음 구축 어디 - 데이터 볼륨.

pi=viivi,
vi

다음으로, 가중 평균은 분산은

μ^=ipixi,
σ^2=ipi(xiμ^)2

0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function

2
@ uswer71015 사이트에 오신 것을 환영합니다. 이것은 코드 일뿐입니다. 코드 작동 방식 및 질문에 대한 답변에 대한 텍스트 / 설명을 추가 할 수 있습니까?
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.