표준 편차를 '합계'하는 방법은 무엇입니까?


68

월 평균 값과 해당 평균에 해당하는 표준 편차가 있습니다. 이제 월간 평균의 합으로 연간 평균을 계산하고 있습니다. 합산 평균의 표준 편차를 어떻게 나타낼 수 있습니까?

예를 들어 풍력 발전 단지의 출력을 고려할 때 :

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

우리는 평균적으로 풍력 발전 단지가 10,358 MWh를 생산한다고 말할 수 있지만,이 수치에 해당하는 표준 편차는 무엇입니까?


3
삭제 된 답변에 대한 토론 에서이 질문에 대한 모호함 이 언급되었습니다 . 월 평균의 SD를 찾거나 해당 평균이 작성된 모든 원래 값의 SD를 복구 하시겠습니까? 그 대답은 또한 후자를 원한다면 매월 평균 각각에 관련된 수의 값이 필요하다는 것을 올바르게 지적했습니다.
whuber

1
삭제 된 다른 응답에 대한 의견은 평균을 합산 하는 것이 이상하다고 지적했습니다 . 확실히 월 평균을 평균 하고 있음을 의미합니다 . 그러나 원하는 모든 원본 데이터의 평균을 추정하려는 경우 일반적으로 이러한 절차는 좋지 않습니다 . 가중 평균이 필요합니다. 물론 "합산 평균"이 무엇인지, 그리고 그것이 무엇을 의미하는지 명확해질 때까지 "합산 평균에 대한 SD"에 대한 귀하의 질문에 대한 올바른 대답을하는 것은 불가능합니다. 우리에게 그것을 명확히하십시오.
whuber

@ whuber 나는 명확히하기 위해 예제를 추가했습니다. 수학적으로 평균의 합은 월 평균 시간 12와 같다고 생각합니다.
klonq

2
예, klonq, 그것은 매우 합리적인 요청입니다. 그러나이 답글은 커뮤니티가 아닌 소유자가 삭제했습니다. 그들의 가치를 보존하기 위해 나는 그 답장과 의견에서 발생하는 핵심 아이디어를 전달하려고 노력했습니다. BTW, 최근 수정 사항은 매우 유용합니다. 사람들은 예제 데이터를보고 싶어합니다.
whuber

1
@Hayden 사이트에 오신 것을 환영합니다. 이것은 OP의 질문에 대한 답변이 아닙니다. 답변을 제공하려면 "답변"필드 만 사용하십시오. 후속 질문이 [ASK QUESTION]있는 경우 상단의을 클릭하여 질문 하면 제대로 도와 드리겠습니다. 여기에 처음 오셨으므로 새로운 사용자를위한 정보가 포함 된 둘러보기 를 이용하십시오 .
gung

답변:


66

짧은 대답 : 분산 평균을 구하십시오 . 그런 다음 평균 표준 편차 를 얻기 위해 제곱근을 취할 수 있습니다 .


Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

그리고 평균 표준 편차sqrt(53,964) = 232


에서 정규 분포 확률 변수의 합 :

와 가 정규 분포 (따라서 함께 분포) 인 독립 랜덤 변수 인 경우 , 합도 정규 분포입니다.XY

... 2 개의 독립적으로 정규 분포 된 랜덤 변수의 합은 정상이며, 평균은 두 평균의 합이고, 분산은 두 분산의 합입니다.

그리고 Wolfram Alpha의 정규 합 분포에서 :

놀랍게도, 평균과 분산 및 갖는 정규 분포 2 개의 독립 변량 와 분포는 각각 다른 정규 분포입니다.XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

그 의미는

μX+Y=μX+μY

그리고 분산

σX+Y2=σX2+σY2

귀하의 데이터 :

  • 합집합: 10,358 MWh
  • 변화: 647,564
  • 표준 편차: 804.71 ( sqrt(647564) )

여기에 이미지 설명을 입력하십시오

따라서 귀하의 질문에 대답하십시오 :

  • 표준 편차를 '합계'하는 방법은 무엇입니까?
  • 당신은 그것들을 2 차적으로 합칩니다 :

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

개념적으로 분산을 합한 다음, 제곱근을 취하여 표준 편차를 얻습니다.


궁금 해서평균 평균 전력과 표준 편차 를 알고 싶었습니다 . 유도를 통해 다음과 같은 12 개의 정규 분포가 필요합니다.

  • 평균을 합하다 10,358
  • 분산의 합 647,564

월 평균 12 회 배포 량은 다음과 같습니다.

  • 의 평균 10,358/12 = 863.16
  • 의 분산 647,564/12 = 53,963.6
  • 표준 편차 sqrt(53963.6) = 232.3

여기에 이미지 설명을 입력하십시오

월 평균 분포를 12 배 더하여 연간 분포와 같은지 확인할 수 있습니다.

  • 평균 : 863.16*12 = 10358 = 10,358( 정확한 )
  • 차이 : 53963.6*12 = 647564 = 647,564( 정확한 )

참고 : 나는 밀식 라텍스 수학에 대한 지식을 가진 사람에게 내 공식 이미지를 변환 formula code하고 스택 교환 형식의 공식으로 변환 할 것 입니다.

편집 : 나는 짧은 지점으로 이동하여 위로 대답했습니다. 내가 오늘 다시이 작업을 수행하는 데 필요한, 그러나 싶어서가 있음을 다시 한 번 확인 평균 차이를 .


3
이 모든 것은 달이 서로 관련이 없다고 가정하는 것 같습니다. 그 가정을 어디에서나 명시 적으로 만드셨습니까? 또한 정규 분포를 가져와야하는 이유는 무엇입니까? 우리가 분산에 대해서만 이야기한다면, 그것은 불필요하게 보입니다-예를 들어, 여기
Macro

1
@Marco 사진을 더 잘 생각하고 모든 것이 이해하기 쉽기 때문입니다.
Ian Boyd

2
@Marco 또한, 나는이 질문이 (현재 기능이없는) stats.stackexchange 사이트에서 시작되었다고 생각합니다. 공식벽은 단순하고, 그래픽적이고, 덜 엄격한 처리보다 접근하기가 어렵습니다.
Ian Boyd

2
이것이 올바른지 의심합니다. 각각 하나의 측정으로 각각 두 개의 데이터 세트를 상상해보십시오. 각 세트의 분산은 0이지만 데이터 포인트가 다른 경우 두 측정 세트의 분산은 0보다 큽니다.
Njol

1
@ Njol, 그래서 우리는 모든 변수가 정규 분포를 가지고 있다고 생각합니다. 우리는 여기에서 할 수 있습니다. 왜냐하면 우리는 물리적 측정에 대해 이야기하기 때문입니다. 귀하의 예에서 두 변수는 정규 분포가 아닙니다.
tworec

11

이것은 오래된 질문이지만 실제로 받아 들여진 대답은 정확하지 않습니다. 사용자는 평균 및 표준 편차가 이미 매월 계산 된 12 개월 데이터에 대한 표준 편차를 계산하려고합니다. 각 달의 표본 수가 같다고 가정하면 각 달의 데이터에서 연도에 대한 표본 평균 및 분산을 계산할 수 있습니다. 간단히하기 위해 두 개의 데이터 세트가 있다고 가정하십시오.

X={x1,....xN}

Y={y1,....,yN}

표본 평균 및 표본 분산의 알려진 값은 , , , 입니다.μxμyσx2σy2

이제 동일한 추정치를 계산하려고합니다.

Z={x1,....,xN,y1,...,yN} .

고려하는 것이 , 같이 계산된다 :μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

총 집합에 대한 평균 및 분산을 추정하려면 다음을 계산해야합니다.

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

따라서 각 부분 집합에 대한 분산이 있고 전체 집합에 대한 분산을 원한다면 각 부분 집합의 평균이 동일한 경우 각 부분 집합의 분산을 평균 할 수 있습니다. 그렇지 않으면 각 부분 집합의 평균 분산을 추가해야합니다.

상반기 동안 우리는 하루에 정확히 1000MWh를 생산하고 초반에는 하루에 2000MWh를 생산한다고 가정 해 봅시다. 그런 다음 상반기와 초반 에너지 생산의 평균 및 분산은 평균에 대해 1000 및 2000이고 양 절반에 대한 분산은 0입니다. 이제 우리가 관심을 가질만한 두 가지가 있습니다.

1- 우리는 일년 내내 에너지 생산의 분산을 계산하려고합니다 . 그런 다음 두 분산을 평균하여 0에 도달합니다. 이는 일년 내내 하루의 에너지가 일정하지 않기 때문에 정확하지 않습니다. 이 경우 각 부분 집합에서 모든 평균의 분산을 추가해야합니다. 수학적으로이 경우 임의의 관심 변수는 매일 에너지 생산입니다. 서브 세트에 대한 샘플 통계가 있으며 더 긴 시간에 걸쳐 샘플 통계를 계산하려고합니다.

2- 우리는 매년 에너지 생산의 분산을 계산하려고합니다. 즉, 우리는 1 년에서 다른 해로 얼마나 많은 에너지 생산이 변화하는지에 관심이 있습니다. 이 경우 평균을 분산하면 평균 1500MHW를 생산하기 때문에 분산의 평균을 구하면 정답이 0이됩니다. 수학적으로이 경우 임의의 관심 변수는 일 년 내내 평균화가 수행되는 일일 평균 에너지 생산량입니다.


1

나는 당신이 정말로 흥미로울 수있는 것은 표준 편차 아닌 표준 오차 라고 생각합니다 .

평균의 표준 오차 (SEM)는 표본 평균의 모집단 평균 추정치의 표준 편차이며, 이는 연간 MWh 추정치의 수준을 측정하는 데 도움이됩니다.

n

s=s12+s22++s12212×n

1

허용 된 답변의 일부로 부정확성을 다시 강조하고 싶습니다. 질문의 표현은 혼란을 초래합니다.

이 질문에는 매달 Average와 StdDev가 있지만 어떤 하위 집합이 사용되는지 확실하지 않습니다. 전체 농장의 풍력 터빈 1 대의 평균입니까 아니면 전체 농장의 일일 평균입니까? 매월의 일일 평균 인 경우 동일한 분모를 갖지 않으므로 월 평균을 더하여 연간 평균을 얻을 수 없습니다. 단위 평균 인 경우 질문에

우리는 평균적으로 풍력 발전소의 각 터빈 이 10,358 MWh를 생산 한다고 말할 수 있습니다 ...

대신에

우리는 평균적으로 풍력 발전소가 10,358 MWh를 생산한다고 말할 수 있습니다 ...

또한 표준 편차 또는 분산은 집합 자체 평균과의 비교입니다. 전체 세트 의 평균 에 관한 정보는 포함하지 않습니다 .

차이 예

이미지는 매우 정확할 필요는 없지만 일반적인 아이디어를 전달합니다. 이미지에서와 같이 1 개의 풍력 발전 단지의 출력을 상상해 봅시다. 보시다시피, "로컬"분산은 "글로벌"분산과는 상관없이 더하거나 곱해도 상관 없습니다. 반년의 분산을 사용하여 연도의 분산을 예측할 수 없습니다. 따라서 수락 된 답변에서 합계 계산은 정확 하지만 월수를 얻기 위해 12로 나누는 것은 아무 의미가 없습니다. . 세 섹션 중 첫 번째 섹션과 마지막 섹션이 잘못되었으며 두 번째 섹션이 맞습니다.

다시 말하지만, 응용 프로그램이 잘못되었으므로 따르지 마십시오. 문제가 발생할 수 있습니다. 연간 단위 또는 월 단위 숫자를 원하는지 여부에 따라 각 단위의 총 연간 / 월별 출력을 데이터 포인트로 사용하여 전체에 대해 계산하면 정답이어야합니다. 아마도 이런 것을 원할 것입니다. 이것은 무작위로 생성 된 숫자입니다. 데이터가 있으면 셀 O2의 결과가 답이되어야합니다.

여기에 이미지 설명을 입력하십시오


허용 된 답변이 불완전하고 잘못되었을 수있는 이유를 이해하는 데 도움이되는 이미지에 대해 대단히 감사합니다. 잘 설명하셨습니다. 감사합니다!
Kay

이것은 투표의 위험을 보여줍니다. 투표하는 사람들은 답을 모르는 사람들입니다. 코딩과는 달리 투표하는 사람들은 코드가 작동하는 사람들, 투표가 많을수록 답이 더 좋습니다. 통계 / 수학의 경우, 더 많은 투표는 더 매력적이라는 것을 의미합니다.
Tam Le
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.