표준 편차는 무엇이며 어떻게 계산되며 통계에 사용됩니까?
표준 편차는 무엇이며 어떻게 계산되며 통계에 사용됩니까?
답변:
표준 편차는 데이터 집합의 "확산"또는 "분산"을 나타내는 숫자입니다. 범위 및 분산과 같은 다른 스프레드 측정 방법이 있습니다.
다음은 몇 가지 예제 데이터와 표준 편차입니다.
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
위 데이터 세트의 평균은 같습니다.
편차는 "평균으로부터의 거리"를 의미합니다.
여기서 "표준"은 "표준화"를 의미하며, 표준 편차와 평균은 분산과 달리 동일한 단위로 나타냅니다.
예를 들어 평균 높이가 2 미터 인 경우 표준 편차는 0.3 미터 일 수 있으며 분산은 0.09 미터 입니다.
데이터 포인트의 75 % 이상이 항상 평균의 표준 편차 2 개 (또는 분포가 정규 분포 인 경우 약 95 %) 내에 있다는 것을 아는 것이 편리합니다 .
예를 들어, 평균이 100이고 표준 편차가 15이면 값의 75 % 이상이 70과 130 사이입니다.
분포가 정규일 경우 값의 95 %는 70과 130 사이입니다.
일반적으로 말하면, IQ 시험 점수는 일반적으로 분포되어 있으며 평균 100입니다. "매우 밝은"사람은 평균보다 두 가지 표준 편차이므로 IQ 시험 점수는 130입니다.
변수를 설명 할 때 일반적으로 중심 측정 값과 스프레드 측정 값의 두 가지 측정 값을 사용하여 변수를 요약합니다. 중심의 일반적인 측정에는 평균, 중앙값 및 모드가 포함됩니다. 확산의 일반적인 측정에는 분산과 사 분위 범위가 포함됩니다.
평균이보고 될 때 분산 (그리스 2 소문자 시그마로 표현됨)이 일반적으로 사용됩니다. 분산은 변수의 평균 제곱 편차입니다. 편차는 각 관측치에서 평균을 빼서 계산합니다. 그렇지 않으면 합이 0이되고 제곱이이 편차의 상대 크기를 유지하면서이 문제를 제거하기 때문에 제곱입니다. 변동을 스프레드의 척도로 사용하는 문제는 그것이 제곱 단위라는 것입니다. 예를 들어 관심있는 변수의 높이가 인치 단위로 측정 된 경우 분산은 제곱 인치 단위로보고됩니다. 표준 편차 (그리스 소문자 시그마로 표시)는 분산의 제곱근이며 산포도를 원래 단위로 반환합니다.
표준 편차를 사용하는 경우, 확산에 대한 저항 측정 값이 아니기 때문에 표준 편차 (및 평균)가 왜곡되므로 특이 치에주의해야합니다. 간단한 예는이 속성을 보여줍니다. 13, 14, 16, 23, 26, 28, 33, 39 및 61의 끔찍한 크리켓 타율 평균은 28.11입니다. 61을 특이 치로 간주하여 삭제하면 평균은 24가됩니다.
다음은 다이어그램을 사용하여이 질문에 답변하는 방법입니다.
우리가 30 마리의 고양이 무게를 가지고 평균 무게를 계산한다고 가정 해 봅시다. 그런 다음 y 축에 가중치를, x 축에 cat 동일성을 갖는 산점도를 생성합니다. 평균 무게는 수평선으로 그릴 수 있습니다. 그런 다음 각 데이터 포인트를 평균 라인에 연결하는 수직선을 그릴 수 있습니다. 이는 평균과 각 데이터 포인트의 편차를 잔차라고합니다. 이제이 잔차는 데이터의 확산에 대해 알려줄 수 있기 때문에 유용 할 수 있습니다. 잔차가 많으면 고양이의 질량이 매우 다양합니다. 반대로, 잔차가 주로 적 으면 고양이는 평균 무게를 중심으로 상당히 밀집되어 있습니다. 평균 을 알려주는 측정 항목이 있다면이 데이터 세트의 잔차 길이가 길면 데이터에 얼마나 퍼져 있는지를 나타내는 편리한 방법입니다. 표준 편차는 사실상 평균 잔차 길이입니다.
나는 sd에 대한 계산을 제공하여 왜 우리가 왜 제곱근을 제곱했는지 설명하고 (나는 Vaibhav의 짧고 달콤한 설명을 좋아한다). 그런 다음 Graham의 마지막 단락에서와 같이 특이 치 문제를 언급합니다.
필요한 정보가 평균에 대한 데이터 분포 인 경우 표준 편차가 유용합니다.
평균과 각 값의 차이의 합은 0입니다 (분명히 값이 평균 주위에 균등하게 분산되어 있기 때문에), 우리는 음수 값을 양수로 변환하고 모집단 전체에 합산하기 위해 각 차이를 제곱합니다. 제곱근. 그런 다음이 값을 샘플 수 (또는 모집단 크기)로 나눕니다. 이것은 표준 편차를 제공합니다.
표준 편차는 분포의 두 번째 중심 모멘트의 제곱근입니다. 중심 모멘트는 분포의 예상 값과 예상되는 차이입니다. 첫 번째 중심 모멘트는 일반적으로 0이므로 두 번째 중심 모멘트는 예상 값에서 임의 변수의 거리 제곱 거리의 예상 값으로 정의합니다.
원래 관측치에 더 적합한 척도로 놓기 위해 두 번째 중심 모멘트의 제곱근을 표준 편차라고합니다.
표준 편차는 모집단의 속성입니다. 해당 인구에 대한 평균 "분산"이 얼마나되는지 측정합니다. 모든 문제가 평균 주위에 모여 있습니까? 아니면 널리 퍼져 있습니까?
모집단의 표준 편차를 추정하기 위해 종종 해당 모집단에서 "표본"의 표준 편차를 계산합니다. 이렇게하려면 해당 모집단에서 관측 값을 가져 와서 해당 관측 값의 평균을 계산 한 다음 해당 "표본 평균"에서 평균 제곱 편차의 제곱근을 계산합니다.
편차의 편견 추정치를 얻기 위해 실제로 표본 평균과의 평균 제곱 편차를 계산하지 않고 대신 (N-1)으로 나눕니다. 여기서 N은 표본의 관측치 수입니다. 이 "표본 표준 편차"는 표준 편차의 편견 추정치가 아니지만 "표본 표준 편차"의 제곱은 모집단 분산의 편견 추정치입니다.
표준 편차를 이해하는 가장 좋은 방법은 헤어 드레서를 생각하는 것입니다! (이 예제가 작동하려면 헤어 드레서에서 데이터를 수집하고 헤어 커팅 속도를 높이십시오.)
헤어 드레서가 사람의 머리카락을 자르는 데 평균 30 분이 걸립니다.
계산을 수행한다고 가정하고 (대부분의 소프트웨어 패키지가이를 수행함) 표준 편차가 5 분임을 알게됩니다. 다음을 의미합니다.
이것을 어떻게 알 수 있습니까? 68 %는 1 표준 편차 내에 있고 96 %는 평균의 2 표준 편차 내에 있습니다 (이 경우 30 분). 따라서 평균에서 표준 편차를 더하거나 뺍니다.
이 경우와 같이 일관성이 필요한 경우 표준 편차가 작을수록 좋습니다. 이 경우 헤어 드레서는 지정된 클라이언트와 함께 최대 약 40 분을 소비합니다. 성공적인 술집을 운영하려면 머리카락을 빨리 자르십시오!