표준 편차는 무엇입니까?


31

표준 편차는 무엇이며 어떻게 계산되며 통계에 사용됩니까?


7
나는이 사이트의 목적이 6 학년 학생들의 질문에 답하는 것이라고 생각하지 않습니다. 그리고 내 아이는 그러한 질문에 직면했을 때 구글이 답을 찾을 것입니다. 이해하지 못하는 정의의 특정 부분이 있으면 물어보십시오. 그러나 그러한 기본 주제에 대한 집중되지 않은 질문은 포스터가 답을 찾지조차 않았다는 것을 나타냅니다. 다음에 무엇이 될까요? "숫자는 무엇이며 어떻게 사용됩니까?"
PeterR

9
이 질문은 괜찮다고 생각합니다. 실제로, 그것은 51 영역에 관한 주제 질문에서 가장 많이 찬성 된 예였습니다. 기본은 여기 있습니다!
피터 Smit

6
동의합니다. 유효한 질문입니다. 또한 사용법과 계산을 요구할 때 잘 설명되어 있습니다. 이 사이트의 목적은 통계적으로 모든 질문에 대한 저장소를 만드는 것입니다.
Joel

5
나는 Joel에 동의합니다. 표준 편차는 통계에서 중요한 개념입니다. 통계적 질문과 관련하여 사이트에서 질문을 할 수 없다면 터무니없는 일이 아닐까요?
Parbury

4
전생의 고등학교 교사로서, 나는 어리석은 질문이 없다고 말할 것입니다. 질문에 합당하지 않은 것으로 분류 한 순간, 가장 강력한 학습 방법을 빼앗아가는 순간, 질문을합니다! (아래에이 질문에 답할 것입니다.)
Adhesh Josh

답변:


30

표준 편차는 데이터 집합의 "확산"또는 "분산"을 나타내는 숫자입니다. 범위 및 분산과 같은 다른 스프레드 측정 방법이 있습니다.

다음은 몇 가지 예제 데이터와 표준 편차입니다.

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

위 데이터 세트의 평균은 같습니다.

편차는 "평균으로부터의 거리"를 의미합니다.

여기서 "표준"은 "표준화"를 의미하며, 표준 편차와 평균은 분산과 달리 동일한 단위로 나타냅니다.

예를 들어 평균 높이가 2 미터 인 경우 표준 편차는 0.3 미터 일 수 있으며 분산은 0.09 미터 입니다.

데이터 포인트의 75 % 이상이 항상 평균의 표준 편차 2 개 (또는 분포가 정규 분포 인 경우 약 95 %) 내에 있다는 것을 아는 것이 편리합니다 .

예를 들어, 평균이 100이고 표준 편차가 15이면 값의 75 % 이상이 70과 130 사이입니다.

분포가 정규일 경우 값의 95 %는 70과 130 사이입니다.

일반적으로 말하면, IQ 시험 점수는 일반적으로 분포되어 있으며 평균 100입니다. "매우 밝은"사람은 평균보다 두 가지 표준 편차이므로 IQ 시험 점수는 130입니다.


닐, 답변 주셔서 감사합니다. "표준 편차"라는 용어에서 "표준"부분을 더 자세히 설명해 주시겠습니까? 적절한 경우 "평균의 표준 오차"용어에서 동일한 "표준"을 터치하십시오. 미리 감사드립니다.
스탠

최근 편집 내용을 다시 한 번 말하면 SD는 어떤 의미에서 "표준화"되었습니까? 일반적으로 표준화 의 기초 가 되지만 자체적으로 표준화되지는 않습니다 (예 : 샘플링 변동의 일부 추정에 의해 크기를 재조정하는 등).
whuber

평균과 같은 단위로 표준화되어 있습니다
Neil McGuigan

평균 높이가 2 미터 인 예는 소수를 사용해야하는 좋은 예입니다. 동일한 예를 센티미터 단위로 수행 할 수 있는데, 여기서 30 센티미터의 표준 편차는 900 센티미터의 편차에서 논리적으로 도출됩니다.
Robert Jones

필자는 1 차 측정 단위에서 피해야한다는 인상을 받았습니다. 결과는 0.133 미터의 SD가 데시 미터, 센티미터 및 밀리미터로 변환되었다고 가정하십시오. 누구든지 설명해 주시겠습니까?
Robert Jones

9

Wikipedia 의 인용문 .

"평균"(평균 또는 예상 / 예산 값)과의 차이가 얼마나되는지 보여줍니다. 표준 편차가 낮 으면 데이터 포인트가 평균에 매우 가까운 경향이있는 반면 표준 편차가 높으면 데이터가 넓은 범위의 값으로 분산되어 있음을 나타냅니다.


5

변수를 설명 할 때 일반적으로 중심 측정 값과 스프레드 측정 값의 두 가지 측정 값을 사용하여 변수를 요약합니다. 중심의 일반적인 측정에는 평균, 중앙값 및 모드가 포함됩니다. 확산의 일반적인 측정에는 분산과 사 분위 범위가 포함됩니다.

평균이보고 될 때 분산 (그리스 2 소문자 시그마로 표현됨)이 일반적으로 사용됩니다. 분산은 변수의 평균 제곱 편차입니다. 편차는 각 관측치에서 평균을 빼서 계산합니다. 그렇지 않으면 합이 0이되고 제곱이이 편차의 상대 크기를 유지하면서이 문제를 제거하기 때문에 제곱입니다. 변동을 스프레드의 척도로 사용하는 문제는 그것이 제곱 단위라는 것입니다. 예를 들어 관심있는 변수의 높이가 인치 단위로 측정 된 경우 분산은 제곱 인치 단위로보고됩니다. 표준 편차 (그리스 소문자 시그마로 표시)는 분산의 제곱근이며 산포도를 원래 단위로 반환합니다.

표준 편차를 사용하는 경우, 확산에 대한 저항 측정 값이 아니기 때문에 표준 편차 (및 평균)가 왜곡되므로 특이 치에주의해야합니다. 간단한 예는이 속성을 보여줍니다. 13, 14, 16, 23, 26, 28, 33, 39 및 61의 끔찍한 크리켓 타율 평균은 28.11입니다. 61을 특이 치로 간주하여 삭제하면 평균은 24가됩니다.


1
σ2σ

2

다음은 다이어그램을 사용하여이 질문에 답변하는 방법입니다.

우리가 30 마리의 고양이 무게를 가지고 평균 무게를 계산한다고 가정 해 봅시다. 그런 다음 y 축에 가중치를, x 축에 cat 동일성을 갖는 산점도를 생성합니다. 평균 무게는 수평선으로 그릴 수 있습니다. 그런 다음 각 데이터 포인트를 평균 라인에 연결하는 수직선을 그릴 수 있습니다. 이는 평균과 각 데이터 포인트의 편차를 잔차라고합니다. 이제이 잔차는 데이터의 확산에 대해 알려줄 수 있기 때문에 유용 할 수 있습니다. 잔차가 많으면 고양이의 질량이 매우 다양합니다. 반대로, 잔차가 주로 적 으면 고양이는 평균 무게를 중심으로 상당히 밀집되어 있습니다. 평균 을 알려주는 측정 항목이 있다면이 데이터 세트의 잔차 길이가 길면 데이터에 얼마나 퍼져 있는지를 나타내는 편리한 방법입니다. 표준 편차는 사실상 평균 잔차 길이입니다.

나는 sd에 대한 계산을 제공하여 왜 우리가 왜 제곱근을 제곱했는지 설명하고 (나는 Vaibhav의 짧고 달콤한 설명을 좋아한다). 그런 다음 Graham의 마지막 단락에서와 같이 특이 치 문제를 언급합니다.


1

필요한 정보가 평균에 대한 데이터 분포 인 경우 표준 편차가 유용합니다.

평균과 각 값의 차이의 합은 0입니다 (분명히 값이 평균 주위에 균등하게 분산되어 있기 때문에), 우리는 음수 값을 양수로 변환하고 모집단 전체에 합산하기 위해 각 차이를 제곱합니다. 제곱근. 그런 다음이 값을 샘플 수 (또는 모집단 크기)로 나눕니다. 이것은 표준 편차를 제공합니다.


". 따라서 우리는 각각의 차이를 제곱합니다 ...."우리는 음수 값을 제거하기 위해 절대 값을 취할 수 있습니다. 마지막에 제곱근을 취해야하므로 왜 더 나은 방법을 제곱 하는가? 왜 편차의 절대 값을 합산하지 않습니까?
Dilip Sarwate

이거 보입니까? 링크
Vaibhav Garg

45

1
@DilipSarwate는 모든 적절한 존중과 함께 권위에 의한 증명은 저에게 깊은 인상을주지 않습니다. "따라서" "정통"이라는 가정은 내가 무시하고 싶은 "사람"입니다. 주어진 진술의 세부 수준은 주어진 맥락에서 그것의 성향 및 / 또는 교육 학적 중요성에 상응한다. 나는 "표준 편차가 무엇인지, 어떻게합니까?"라고 묻는 사람이라고 가정합니다. 동일한 수학적 정의에 대해 부담을 느끼고 싶지 않을 수도 있습니다. 단순화는 의도적이며 인식하지 못한 결과가 아니라 확신시켜 드리겠습니다.
Vaibhav Garg

1
그리고기도의 말에 따르면, 당신에게 감명을주지 않는 권위에 의한 증거가 아닌 "우리가 정사각형"이란 무엇입니까? "따라서"의미하는 바와 같이, 제곱이 자동으로 문제의 해결책이되는 논리적 인 이유는 없습니다.
Dilip Sarwate

1

표준 편차는 평균의 평균 거리입니다 . 이것은 수학적으로 유용한 것보다 개념적으로 더 유용하지만 처음에 설명 할 수있는 좋은 방법입니다.


0

표준 편차는 분포의 두 번째 중심 모멘트의 제곱근입니다. 중심 모멘트는 분포의 예상 값과 예상되는 차이입니다. 첫 번째 중심 모멘트는 일반적으로 0이므로 두 번째 중심 모멘트는 예상 값에서 임의 변수의 거리 제곱 거리의 예상 값으로 정의합니다.

원래 관측치에 더 적합한 척도로 놓기 위해 두 번째 중심 모멘트의 제곱근을 표준 편차라고합니다.

표준 편차는 모집단의 속성입니다. 해당 인구에 대한 평균 "분산"이 얼마나되는지 측정합니다. 모든 문제가 평균 주위에 모여 있습니까? 아니면 널리 퍼져 있습니까?

모집단의 표준 편차를 추정하기 위해 종종 해당 모집단에서 "표본"의 표준 편차를 계산합니다. 이렇게하려면 해당 모집단에서 관측 값을 가져 와서 해당 관측 값의 평균을 계산 한 다음 해당 "표본 평균"에서 평균 제곱 편차의 제곱근을 계산합니다.

편차의 편견 추정치를 얻기 위해 실제로 표본 평균과의 평균 제곱 편차를 계산하지 않고 대신 (N-1)으로 나눕니다. 여기서 N은 표본의 관측치 수입니다. 이 "표본 표준 편차"는 표준 편차의 편견 추정치가 아니지만 "표본 표준 편차"의 제곱은 모집단 분산의 편견 추정치입니다.


6
이것은 매우 불명확 한 반응입니다. 영어로 작성하십시오.
닐 맥기 건

1
아마 그렇습니다. 이 질문을하는 사람은 거리에서 걸어온 사람이나 최소한 통계 책을 연 사람입니다. 누군가에게 표준 편차는 분산의 제곱근이라고 말하면 완전히 질문을합니다.
Baltimark

-1

표준 편차를 이해하는 가장 좋은 방법은 헤어 드레서를 생각하는 것입니다! (이 예제가 작동하려면 헤어 드레서에서 데이터를 수집하고 헤어 커팅 속도를 높이십시오.)

헤어 드레서가 사람의 머리카락을 자르는 데 평균 30 분이 걸립니다.

계산을 수행한다고 가정하고 (대부분의 소프트웨어 패키지가이를 수행함) 표준 편차가 5 분임을 알게됩니다. 다음을 의미합니다.

  • 헤어 드레서는 25 분 35 분 내에 고객의 68 % 머리카락을 자릅니다.
  • 헤어 드레서는 20 분과 40 분 안에 고객의 96 %의 머리카락을 자릅니다.

이것을 어떻게 알 수 있습니까? 68 %는 1 표준 편차 내에 있고 96 %는 평균의 2 표준 편차 내에 있습니다 (이 경우 30 분). 따라서 평균에서 표준 편차를 더하거나 뺍니다.

이 경우와 같이 일관성이 필요한 경우 표준 편차가 작을수록 좋습니다. 이 경우 헤어 드레서는 지정된 클라이언트와 함께 최대 약 40 분을 소비합니다. 성공적인 술집을 운영하려면 머리카락을 빨리 자르십시오!


나는 당신이 당신의 대답을 교정하지 않는다고 생각합니다. 여기 모순 된 정보가 있습니다. 내 편집 내용에 동의하는지 확인하십시오.
rolando2

1
정규 분포의 경우 표준 편차의 해석 만 설명했습니다. '68 % 규칙 '및 (및 95 % 규칙)은 정규 분포 데이터에만 적용됩니다. 최소한 이발 시간이 정규 분포를 따르는 경우에만 두 개의 글 머리 기호가 사실임을 진술하십시오.
매크로

매크로, 저는 정규 곡선을 언급했으며 정규 곡선을 사용하면 데이터가 정규 분포를 따릅니다.
Adhesh Josh

@ rolando2 나는 Adhesh의 설명에 무엇이 잘못인지 이해하지 못하는 것 같습니다
Amarald

@Amarald-편집 전과 후에 "Jan 31 at 1:06"을 클릭하여 버전을 보셨습니까? 매크로가 중요한 점을 지적하지만 답변이 더 강력하다고 생각합니다.
rolando2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.