평균 절대 편차 대 표준 편차


34

Greer (1983)의 "O 레벨에 대한 새로운 종합 수학" 교과서에서 평균 편차는 다음과 같이 계산됩니다.

단일 값과 평균의 절대 차이를 요약하십시오. 그런 다음 평균을 얻으십시오. 평균 편차 라는 용어 가 사용됩니다.

그러나 최근 표준 편차 라는 용어를 사용하는 몇 가지 참조가 있으며 이것이 수행하는 것입니다.

단일 값과 평균의 차이 제곱을 계산합니다. 그런 다음 평균을 구하고 마침내 답의 근본을 얻으십시오.

일반적인 데이터 세트에서 두 가지 방법을 모두 시도했지만 답변이 다릅니다. 저는 통계학자가 아닙니다. 아이들에게 일탈을 가르치려고하면서 혼란 스러웠습니다.

간단히 말해서 표준 편차평균 편차 라는 용어 가 동일하거나 이전 교과서가 잘못 되었습니까?


2
두 수량이 다릅니다. 그들은 데이터에 다른 가중치를 부여합니다. 표준 편차는 더 클 것이며, 값이 클수록 상대적으로 더 큰 영향을받습니다. 표준 편차 (특히 n 분모 버전)는 제곱 평균 편차로 간주 할 수 있습니다. 표준 편차가 더 일반적으로 사용됩니다.
Glen_b

6
매우 밀접하게 관련 : stats.stackexchange.com/questions/118/...를 .
whuber

게리 캐더는 아이들에게 평균 절대 편차를 유도 하는 재미있는 방법이 있습니다.
Iain Samuel McLean Elder

1
또한 사람들이 표준 편차를 선호하는 한 가지 이유는 관련이없는 임의의 변수의 합의 분산이 더해지기 때문입니다 (관련 변수도 간단한 수식을 가짐). 그것은 평균 편차로 발생하지 않습니다.
Glen_b

2
@Alexis 문구가 열악했습니다. 독립 랜덤 변수의 경우 Var (X + Y) = Var (X) + Var (Y). 이 사실은 장소 (가 잘 알고 리드에 걸쳐 모두 사용됩니다 n예를 들어 1- 표본 t- 통계량과 같은 수단과 관련된 공식을 표준화 할 때의 용어) 평균 편차에 대한 일반적인 사실은 없습니다.
Glen_b

답변:


26

두 값 모두 관측 값의 평균 주위에 값이 얼마나 멀리 퍼져 있는지에 대한 답입니다.

평균에서 1 인 관측치는 평균에서 1보다 큰 값인 평균과 동일하게 "멀리"있습니다. 따라서 편차의 부호를 무시해야합니다. 이것은 두 가지 방법으로 수행 할 수 있습니다.

  • 편차의 절대 값을 계산하고이를 합산하십시오.

  • 편차를 제곱하고이 제곱을 합산하십시오. 제곱으로 인해 편차에 더 많은 가중치를 부여하므로 이러한 제곱의 합은 평균의 합과 다릅니다.

"절대 편차의 합"또는 "제곱 편차의 합의 제곱근"을 계산 한 후 평균을 구하여 "평균 편차"와 "표준 편차"를 구합니다.

평균 편차는 거의 사용되지 않습니다.


따라서 단순히 '편차'라고 말하면 '표준 편차'를 의미합니까?
itsols

본인은 위 또는 아래의 1이 일반인의 관점에서 의미있는 '변경'또는 '분산'을 나타내는 것에 동의합니다. 그러나 그것을 제곱하는 것은 더 큰 가치를 줄 것이며 그것은 나의 '실제 변화'가 아닐 수도 있습니다. 어쩌면 내가 틀렸지 만 그것이 내가 보는 방식이다 : /
itsols

대부분 표준 편차 (제곱근) 항이 사용됩니다. 제곱 계산은 일반적으로 다른 많은 계산을 용이하게하기 때문에 수행됩니다.
카스퍼

1
@itsols 기술적으로 데이터 세트에 대해 계산할 편차 통계 유형을 항상 지정해야합니다. 단어 자체 단어 편차는 평균에서 단일 데이터 포인트의 편차를 참조해야합니다 (카스퍼가 답변에 사용하는 방식) ).
AmeliaBR

@itsols, 아멜리아 +1 실제로, 데이터 세트 통계 를 "편차" 라고 말하는 사람은 없습니다 . 통계는 "평균 절대 편차"또는 "평균 제곱 편차의 근"등입니다.
ttnphns

15

오늘날 통계 값은 더 이상 휴대용 계산기가 아닌 컴퓨터 프로그램 (Excel, ...)에 의해 주로 계산됩니다. 따라서 "평균 편차"를 계산하는 것이 "표준 편차"를 계산하는 것보다 더 번거롭지 않다고 생각합니다. 표준 편차에는 "통계에서 더 유용하게 만드는 수학적 특성"이있을 수 있지만 실제로 평균에서 멀리 떨어진 데이터 포인트에 추가 가중치를 부여하기 때문에 평균에서 분산 개념의 왜곡이 발생합니다. 시간이 다소 걸릴 수 있지만, 데이터 포인트 간 분포를 논의 할 때 통계학자가 "평균 편차"를 더 자주 사용하여 다시 발전하기를 바랍니다. 실제로 분포에 대해 어떻게 생각하는지 더 정확하게 나타냅니다.


사람들은 (통계적으로 자격을 갖춘) 사람들이 어떻게 "실제로 생각하는지"에 대해 특별한 주장을합니다. 그것에 관한 정보의 출처는 무엇입니까?
whuber

7
출처는 내가이 주제에 대해 내가 질문 한 사람들 일뿐입니다. 요청시 :이 데이터 세트의 변형을 어떻게 묘사합니까? 응답은 항상 평균으로부터의 선형 거리로 표현되었습니다. 응답에는 절대 제곱 또는 제곱근이 포함되지 않았습니다. 물론 저는 통계 전문가가 아니라 엔지니어이지만 다른 사람에게이 주제에 대해 도전하도록 요청하고 싶습니다. 그렇습니다. 우리는 표준 편차의 수학을 좋아합니다. 재밌지 만, 이것이 실제로 평균과의 편차를 묘사하는 방법입니까?
andyl

2
목적에 따라 다릅니다. 데이터 탐색의 경우 중간에서 편차와 같은 강력한 순위 기반 분산 추정치를 사용하는 경향이 있습니다. 그러나 통계적으로 유의미한 가능성을 평가하고, 적절한 표본 크기를 추정하고, 정보의 가치를 파악하고, 경쟁 통계 절차를 결정할 때, 분산 (그리고 표준 편차) 측면에서 생각하는 다른 많은 작업의 경우 본질적인. 수학이 명확하게 보여주는 것처럼 평균 편차는 대체가 아닙니다.
whuber

1
이 문서를 확인하십시오 .
Pete

@Pete 어떻게 거기에 도달 했습니까?
Vicrobot

9

둘 다 동일한 개념을 측정하지만 동일하지 않습니다.

1n|xix¯|1n(xix¯)2

a+ba+b
|xix¯|=(xix¯)2(xix¯)2

n

1n(xix¯)2

표준 편차가 선호되는 이유는 계산이 복잡해질 때 나중에 수학적으로 작업하기가 더 쉽기 때문입니다.


3
합의 절대 값은 일반적으로 절대 값의 합과 같지 않습니다 ! 제곱, 제곱근 또는 절대 함수가 선형이 아니므로 함수를 적용한 후의 합계가 합계를 취한 후 함수를 적용한 것과 다릅니다.
AmeliaBR

@AmeliaBR 당신은 물론 완벽하게 맞습니다!
ltronneberg

그러나 나머지 주장은 좋았 기 때문에 문제가있는 진술을 편집하기로 결정했습니다.
AmeliaBR

8

@itsols, 나는 카스퍼의 중요한 개념에 덧붙일 것이다 The mean deviation is rarely used. 표준 편차가 일반적으로 평균 절대 편차보다 변동성 측정이 더 나은 것으로 간주되는 이유무엇 입니까? 산술 평균 은 최소의 제곱 된 (절대 합계가 아닌) 편차 의 궤적 이기 때문입니다.

이타주의 정도를 평가하려고한다고 가정합니다. 그럼 당신은 아마 인생의 "일반적인 상황"에서 돈을 줄 준비가 된 사람에 대해 사람에게 묻지 않을 것입니다. 오히려, 당신은 그가 자신의 생활에 대한 가능한 최소한의 자원 봉사를 가지고있는 상황에서 그가 얼마나 많은 일을 할 준비가되었는지 묻습니다. 즉, 그 양이 개인의 최소 인 상황에서 개인 이타주의의 양은 얼마입니까?

마찬가지로 이러한 데이터의 변동 정도는 얼마입니까? 직관적으로, 최상의 측정 지수는이 맥락에서 한계까지 최소화 (또는 최대화) 된 것입니다. 문맥은 "산술 평균 주위"입니다. 그런 다음 st. 이 점에서 편차가 최선의 선택입니다. 문맥이 "중앙 주위"인 경우 | deviation | 중앙값이 최소 편차의 최소값의 위치이기 때문에 최선의 선택입니다.


4
Locus를 기반으로 한 SD의 정당성은 원형입니다. 당신은 산술 평균에 특별한 중요성을 두어 SD를 정당화하고 있습니다.이 모든 쇼는 SD가 특별한 것이 아니라 관계가 있다는 것입니다. 마찬가지로, 절대 값 손실 의 최소 ​​합의 지점 인 중앙값에 중요성을 둘 수있다 . SD가 더 자주 사용되는 실제 이유는 수학 작업이 더 쉽기 때문입니다 ... 더 나아가 계산이 더 쉽습니다 (두 가지 중간 값에 "정렬"이 필요하고 제곱이 분기 문보다 계산 속도가 빠르기 때문입니다). 철학적으로 절대 편차는 더 큰 가치가 있습니다.
samthebest

7

한 가지 더할만한 점은 30 세의 교과서가 표준 편차와 달리 절대 평균 편차를 사용한 가장 가능성이 높은 이유는 수작업으로 계산하는 것이 더 쉽다는 것입니다 (제곱근 / 제곱근 없음). 이제 고등학생이 계산기에 쉽게 액세스 할 수 있으므로 표준 편차를 계산하도록 요구하지 않아도됩니다.

복잡한 모형 피팅에서 표준 편차 대신 절대 편차가 사용되는 상황이 여전히 있습니다. 절대 편차는 다른 데이터 포인트의 값에 추가하기 전에 해당 거리를 제곱하지 않기 때문에 표준 편차와 비교하여 극한 이상치 (평균 / 트렌드 라인에서 멀리 떨어진 값)에 덜 민감합니다. 모형 피팅 방법은 계산 방법에 따라 추세선에서 총 편차를 줄이는 것을 목표로하기 때문에 표준 편차를 사용하는 방법으로 인해 특이점에 더 가깝게하기 위해 대부분의 점에서 멀어지는 추세선을 만들 수 있습니다. . 절대 편차를 사용하면이 왜곡이 줄어들지 만 추세선 계산이 더 복잡해집니다.

다른 사람들이 지적했듯이 표준 편차에는 수학적 속성과 관계가 있기 때문에 일반적으로 통계에 더 유용합니다. 그러나 "유용하다"는 결코 완벽한 것과 혼동되어서는 안됩니다.


1
궁금한 점은 평균 절대 편차보다 SD를 더 유용하게 만드는 "수학 속성"은 무엇입니까? 그건 그렇고 훌륭한 답변입니다.
Weipeng L

@pongba 표준 편차는 서로 상쇄 될 수있는 여러 효과 (일명 정규 분포 데이터)의 랜덤 변동을 가정하는 많은 통계 모델에 내재되어 있습니다. 여기에는 대규모 모집단의 설문 조사를 사용할 때 샘플링 정확도 (오류 한계)가 포함됩니다. 데이터가이 모형을 만족하는 경우 평균에서 SD 수에서 값을 얻을 확률을 추정 할 수 있습니다. 개별 컴포넌트의 SD에서 여러 독립 효과의 SD를 계산할 수 있습니다. 또한보십시오 : en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

둘 다 데이터의 거리를 평균으로 계산하여 데이터 의 분산 을 측정합니다 .

  1. 평균 절대 편차 (이라고도 L1 노름을 사용 맨해튼 거리 또는 직선 거리 )
  2. 표준 편차 규범 L2를 사용한다 (또한 유클리드 거리 )

두 표준 간의 차이표준 편차 가 차이의 제곱을 계산하는 반면 평균 절대 편차절대 차이 만보고 있다는 것 입니다. 따라서 다른 방법 대신 표준 편차를 사용할 때 큰 특이 치가 더 높은 분산을 생성합니다. 유클리드 거리도 실제로 더 자주 사용됩니다. 주된 이유는 표준 편차가데이터가 정상적으로 분포 될 때 좋은 속성을 갖습니다. 따라서이 가정 하에서 사용하는 것이 좋습니다. 그러나 사람들은 종종 실제로 배포되지 않은 데이터에 대해 이러한 가정을 수행하여 문제를 만듭니다. 데이터가 정규 분포를 따르지 않아도 여전히 표준 편차를 사용할 수 있지만 결과 해석에주의해야합니다.

마지막으로 두 분산 측정은 p = 1 및 p = 2에 대한 Minkowski 거리 의 특별한 경우입니다 . p를 증가시켜 데이터 분산의 다른 측정 값을 얻을 수 있습니다.


이 주제에 대해 math.stackexchange에 대한 게시물이 있습니다. math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience

6

그것들은 같은 개념을 정량화하려는 비슷한 측정법입니다. 일반적으로 st를 사용합니다. 근본 분포에 대해 약간의 가정을하면 훌륭한 특성을 가지므로 편차가 발생합니다.

반면에 평균 편차의 절대 값은이를 구별 할 수없고 쉽게 분석 할 수 없기 때문에 수학적 관점에서 일부 문제를 야기합니다. 여기에 몇 가지 토론이 있습니다 .


1

아니, 넌 잘못 되었어. 농담이야 그러나 공식적인 표준보다는 평균 편차를 계산하려는 많은 이유가 있으며, 이런 식으로 저는 공학 엔지니어의 관점에 동의합니다. 확실하게 질적 인 결론뿐만 아니라 질적 인 결론을 표현하는 기존 작업의 본문과 비교하기 위해 통계를 계산한다면, 나는 표준에 충실했습니다. 그러나 예를 들어, 내가 빨리 달리려고한다고 가정합니다.이진 머신 생성 데이터에 대한 이상 탐지 알고리즘. 나는 최종 목표로 학업 비교를 한 적이 없습니다. 그러나 평균에 대한 특정 데이터 흐름의 "확산"에 대한 근본적인 추론에 관심이 있습니다. 나는 이것을 반복적이고 가능한 한 효율적으로 계산하는데 관심이 있습니다. 디지털 전자 하드웨어에서 우리는 항상 더티 트릭을 수행합니다. 우리는 곱셈과 나눗셈을 각각 왼쪽과 오른쪽 시프트로 증류하고 절대 값을 "계산"하기 위해 단순히 부호 비트를 버리고 필요에 따라 1 또는 2의 보수를 계산합니다 쉬운 변형). 따라서, 가장 선택의 폭을 넓히는 방법으로 계산하고 원하는 시간 범위에서 빠른 이상 감지를 위해 계산에 선형 임계 값을 적용하는 것입니다.


1
표준 편차는 모든 순간 (평균 절대 편차 포함)과 마찬가지로 온라인 알고리즘을 사용하여 효율적이고 간단하게 계산할 수 있습니다. 따라서 빠르고 간단한 계산에 대한 요구 사항은이를 배제하지 않으며 모멘트 기반 스프레드 추정기를 배제하지도 않습니다.
whuber

0

두 측정법은 실제로 다릅니다. 첫 번째는 종종 평균 절대 편차 (MAD)라고하며 두 번째는 표준 편차 (STD)입니다. 컴퓨팅 성능이 매우 제한적이고 프로그램 메모리가 제한된 임베디드 응용 프로그램에서는 제곱근 계산을 피하는 것이 매우 바람직 할 수 있습니다.

빠른 거친 테스트에서 가우시안 분산 랜덤 샘플 세트에 대해 MA가 0.78에서 0.80 사이 인 MAD = f * STD 인 것으로 보입니다.


0

Amar Sagoo는 이것을 설명하는 아주 좋은 기사를 가지고 있습니다 : [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

직관적 인 이해에 내 자신의 시도를 추가하려면 :

평균 편차는 가상의 "평균"지점이 평균에서 얼마나 멀리 있는지 묻는 적절한 방법이지만 모든 지점이 서로 얼마나 멀리 떨어져 있는지 또는 데이터가 얼마나 "확산"되는지를 묻는 데는 실제로 효과가 없습니다.

표준 편차는 모든 점이 얼마나 멀리 떨어져 있는지를 묻기 때문에 평균 편차보다 더 유용한 정보를 포함합니다. 따라서 평균 편차는 일반적으로 표준 편차를 이해하기위한 디딤돌로만 사용됩니다.

좋은 비유는 피타고라스 정리입니다. 피타고라스 정리는 수평 거리와 수직 거리를 취하고, 제곱을 추가하고, 제곱을 더하고, 총계의 제곱근을 취함으로써 2 차원의 점 사이의 거리를 알려줍니다.

자세히 살펴보면 (인구) 표준 편차의 공식은 기본적으로 피타고라스 정리와 동일하지만 2 차원보다 훨씬 더 많습니다 (각 점에서 평균까지의 거리를 각 차원의 거리로 사용). 따라서 데이터 세트의 모든 지점 사이의 "거리"에 대한 가장 정확한 그림을 제공합니다.

그 비유를 조금 더 추진하기 위해, 평균 절대 편차는 총 거리보다 짧은 수평 및 수직 거리의 평균을 취하는 것과 같으며, 총 절대 편차는 수평 및 수직 거리를 더하는 것입니다. 실제 거리보다.


나는 당신이 평균 편차라고 말할 때 OP가 말하고있는 절대 절대 편차를 의미한다고 가정합니다. 평균 편차는 항상 0이므로 용어가 중요합니다. 평균 절대 편차와 표준 편차의 차이와 관련하여 둘 다 평균에서 모든 점의 편차를 포함합니다. 하나는 평균으로부터 절대 편차의 합을 포함하는 반면, 제곱 편차의 합이라면 제곱근이됩니다.
Michael Chernick

0

표준 편차는 임의 공정으로 인한 분산을 나타냅니다. 특히, 많은 독립적 인 프로세스의 합으로 인해 예상되는 많은 물리적 측정 값은 정규 (벨 곡선) 분포를 갖습니다.

Y=1σ2πe(xμ)22σ2

Yxμσ

다시 말해서, 표준 편차는 독립적 인 랜덤 변수가 함께 합쳐지는 용어입니다. 따라서 여기에 주어진 답변 중 일부에 동의하지 않습니다. 표준 편차는 "나중의 계산에 더 편리 할 수있는"편차를 의미하는 대안이 아닙니다. 표준 편차는 정규 분포 현상에 대한 분산을 모델링 하는 올바른 방법 입니다.

방정식을 보면 표준 편차가 평균에서 더 큰 편차에 더 큰 가중치를 부여 함을 알 수 있습니다. 직관적으로 평균 편차는 평균 의 실제 평균 편차를 측정하는 것으로 생각할 수 있지만 표준 편차는 평균 주위의 종 모양의 "정상"분포를 설명합니다. 따라서 데이터가 정규 분포를 따르는 경우 표준 편차는 더 많은 값을 샘플링하면 평균 주위의 한 표준 편차 내에서 ~ 68 %의 값을 찾을 수 있음을 나타냅니다.

반면에 단일 랜덤 변수가있는 경우 분포는 사각형처럼 보일 수 있으며 범위 내 어디에서나 같은 값이 나타날 수 있습니다. 이 경우 평균 편차가 더 적절할 수 있습니다.

TL; DR 많은 기본 랜덤 프로세스로 인해 발생하거나 단순히 정규 분포를 알고있는 데이터가있는 경우 표준 편차 함수를 사용하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.