표준 편차에서 절대 값을 취하는 대신 차이를 제곱하는 이유는 무엇입니까?


408

표준 편차의 정의 에서 평균과의 차이 를 제곱 하여 평균 (E)을 구하고 마지막에 제곱근을 되 찾아야하는 이유는 무엇입니까? 단순히 차이 의 절대 값 을 가져 와서 그 값 의 기대 값 (평균)을 얻을 수없고 데이터의 변화도 보여줄 수 없습니까? 숫자는 제곱 방법과 다르지만 (절대 값 방법은 더 작음) 여전히 데이터의 분산을 보여야합니다. 왜 우리가 왜이 사각형 접근 방식을 표준으로 사용하는지 알고 있습니까?

표준 편차의 정의 :

σ=E[(Xμ)2].

대신 절대 값을 가져와도 여전히 좋은 측정을 할 수는 없습니까?

σ=E[|Xμ|]


25
어떤 방식으로, 제안한 측정은 오차 (모델 품질) 분석의 경우 널리 사용됩니다.이를 "평균 절대 오차"라고하는 MAE라고합니다.

8
답을 받아 들일 때 답이 원형인지 여부에주의를 기울이는 것이 중요합니다. 정규 분포는 제곱 오차 항의 분산에 대한 이러한 측정을 기반으로하지만 그 자체로는 | XM |에 (XM) ^ 2를 사용하는 것이 정당하지 않습니다.
russellpierce

2
표준이라는 용어가 이것이 오늘날의 표준이라는 것을 의미한다고 생각하십니까? 왜 주 구성 요소가 "주체"이고 보조가 아닌지 묻는 것이 좋지 않습니까?
로빈 지라드

51
지금까지 제공된 모든 답변은 순환 적입니다. 그들은 수학적 계산의 용이성 (좋은 것은 아니지만 근본적인 것은 아님)이나 가우스 분포 (Gassian (Normal) distribution)와 OLS의 속성에 중점을 둡니다. 약 1800 가우스 최소 제곱과 분산으로 시작 했으며 정규 분포 에서 파생 된 것으로 부터 원형이 있습니다. 아직 답을 얻지 못한 근본적인 이유 는 중앙 한계 정리 의 분산에 의해 수행 되는 고유 한 역할 때문 입니다. 이차 손실을 최소화하는 의사 결정 이론의 중요성도 중요합니다.
whuber

2
Taleb는 Edge.org 에서 표준 편차를 폐기하고 평균 절대 편차를 사용 하는 사례 를 만듭니다 .
Alex Holcombe 2016 년

답변:


188

표준 편차의 목표가 대칭 데이터 세트의 확산을 요약하는 것이라면 (즉, 일반적으로 각 데이텀이 평균에서 얼마나 멀리 떨어져 있는지), 해당 확산을 측정하는 방법을 정의하는 좋은 방법이 필요합니다.

제곱의 장점은 다음과 같습니다.

  • 제곱은 항상 양수 값을 제공하므로 합계가 0이 아닙니다.
  • Squaring은 더 큰 차이점을 강조합니다.이 기능은 좋고 나쁜 것으로 밝혀졌습니다 (이상치의 영향을 생각하십시오).

그러나 제곱은 산포의 척도로서 문제가 있습니다. 즉, 단위가 모두 제곱 인 반면, 스프레드는 원래 데이터와 동일한 단위 (제곱 파운드, 제곱 달러 또는 제곱 사과로 생각)와 같은 단위를 선호 할 수 있습니다. . 따라서 제곱근을 사용하면 원래 단위로 돌아갈 수 있습니다.

절대 차이가 데이터 분산에 동일한 가중치를 할당하는 반면, 제곱은 극단을 강조한다고 말할 수 있습니다. 기술적으로, 다른 사람들이 지적했듯이, 제곱은 대수를 다루기가 훨씬 쉬워지고 절대 방법이하지 않는 속성을 제공합니다 (예 : 분산은 분포의 제곱에서 제곱의 제곱을 뺀 값과 같습니다) 분포의 평균)

그러나 '스프레드'를 보는 방법에 대한 선호도 (값의 마법 임계 값으로 5 %를 보는 사람들의 정렬 방식)를 선호하는 경우 절대 차이를 취할 수없는 이유가 없다는 점에 유의 해야합니다. 실제로 상황에 따라 다릅니다). 실제로 스프레드를 측정하기위한 여러 가지 경쟁 방법이 있습니다.p

피타고라스 통계 정리와의 관계를 생각하기 때문에 제곱 값을 사용하는 것이 좋습니다. … 이것은 또한 독립적 인 임의의 변수로 작업 할 때 그것을 기억하는 데 도움이됩니다 , 차이가 추가되고 표준 편차는 그렇지 않습니다. 그러나 그것은 내가 주로 기억 보조제로만 사용하는 개인적인 개인적 주관적 취향입니다.이 단락을 무시하십시오.c=a2+b2

훨씬 더 심층적 인 분석은 여기에서 읽을 수 있습니다 .


72
"제곱은 항상 양수 값을 제공하므로 합계는 0이 아닙니다." 절대 값도 마찬가지입니다.
로빈 지라드

32
@ Robin girard : 맞습니다. 왜 내가 그 점 앞에 "제곱의 이점이 포함되어 있습니다". 나는 그 진술에서 절대 가치에 대해 아무것도 암시하지 않았습니다. 나는 당신의 요점을 취합니다. 다른 사람들이 불분명하다고 생각하면 그것을 제거 / 회수하는 것을 고려할 것입니다.
Tony Breyal

15
강력한 통계의 많은 분야는 데이터 분산 (기술적 규모 또는 분산)의 척도로 분산을 선택한 결과로 특이 치에 대한 과도한 민감도를 처리하려는 시도입니다. en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
답변에 링크 된 기사는 신의 보냄입니다.
traggatmot

1
피타고라스에 관한 단락이 제자리에 있다고 생각합니다. 오차를 차원 의 벡터로 생각할 수 있으며 은 샘플 수입니다. 각 차원의 크기는 해당 표본의 평균과의 차이입니다. 해당 벡터의 길이 (피타고라스)는 합 제곱의 근, 즉 표준 편차입니다. , N [ ( X 1 - μ ) , ( X 2 - μ ) , ( X 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

제곱 차이는 더 좋은 수학적 속성을 갖습니다. 지속적으로 차별화 할 수 있고 (최소화하고 싶을 때) 가우시안 분포를위한 충분한 통계량이며, 수렴 등을 증명하는 데 유용한 L2 규범 (버전)입니다.

평균 절대 편차 (추천 된 절대 값 표기법)도 분산 측정으로 사용되지만 제곱 오차만큼 "잘 동작"하지는 않습니다.


2
"그것은 지속적으로 차별화 할 수 있습니다 (최소화하고 싶을 때 좋습니다)"는 절대 값을 최적화하기 어렵다는 것을 의미합니까?
로빈 지라드

29
@robin : 절대 값 함수는 어디에서나 연속적이지만 첫 번째 미분 값은 x = 0이 아닙니다. 이로 인해 분석 최적화가 더 어려워집니다.
Vince

12
그렇습니다. 그러나 설명자가 아니라 원하는 실제 숫자를 찾는 것이 제곱 오류 손실에서 더 쉽습니다. 1 차원 사례를 고려하십시오. 평균 : O (n) 연산 및 닫힌 형태로 제곱 오차의 최소화를 표현할 수 있습니다. 중앙값으로 절대 오차 최소화 기의 값을 표현할 수 있지만 중앙값이 무엇인지 알려주는 폐쇄 형 솔루션은 없습니다. 찾기 위해서는 O (n log n)과 같은 정렬이 필요합니다. 최소 제곱 솔루션은 단순한 플러그 앤 처그 유형 작동 경향이 있으며 절대 값 솔루션은 일반적으로 더 많은 작업이 필요합니다.
Rich

5
@Rich : 분산과 중앙값 모두 선형 시간으로 찾을 수 있으며 물론 더 빠릅니다. 중간 값은 정렬이 필요하지 않습니다.
Neil G


84

이것을 생각할 수있는 한 가지 방법은 표준 편차가 "평균으로부터의 거리"와 유사하다는 것입니다.

이것을 유클리드 공간의 거리와 비교하십시오-이것은 당신에게 제안한 것 (btw, 절대 편차 )이 맨해튼 거리 계산 과 같은 실제 거리를 제공합니다 .


17
유클리드 공간의 멋진 비유!
c4il

2
한 차원에서 과 규범은 같은 것입니다. 그렇지 않습니까? l 2l1l2
naught101

5
@ naught101 : 그것은 하나의 차원이 아니라 오히려 차원입니다. 여기서 은 샘플 수입니다. 표준 편차와 절대 편차는 각각 두 점 과 사이의 (스케일 된) 및 거리입니다. 여기서 는 평균. n l 2 l 1 ( x 1 , x 2 , , x n ) ( μ , μ , , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
평균과의 최소 거리로 수정해야합니다. 본질적으로 피타고라스 방정식입니다.
John

56

절대 오차 대신 표준 편차를 계산 하는 이유오차를 정규 분포가정하고 있기 때문 입니다. 모델의 일부입니다.

자를 사용하여 매우 작은 길이를 측정한다고 가정하면 실수로 음의 길이를 측정하지 않는다는 것을 알기 때문에 표준 편차는 오류에 대한 나쁜 측정법입니다. 더 나은 메트릭은 감마 분포를 측정에 맞추는 데 도움이되는 것입니다.

log(E(x))E(log(x))

표준 편차와 마찬가지로, 이것은 음이 아니고 미분 할 수 있지만이 문제에 대한 더 나은 오류 통계입니다.


3
나는 당신의 대답을 좋아합니다. sd가 항상 최상의 통계는 아닙니다.
RockScience

2
표준 편차가 변동 크기를 생각하기에 가장 좋은 방법이 아닌 경우에 대한 좋은 반례.
Hbar

concave 대신 convex 를 사용하여 긍정적 인 측정 값을 얻기 위해 수량에 반대 부호가 합니까? log xlogxlogx
AS

@AS 아니요, 항상 긍정적입니다. 모든 표본 가 같으면 0이고, 그렇지 않으면 크기가 변동을 측정합니다. x
Neil G

당신은 착각합니다. 오목한 대한 . gE(g(X))g(E(X))g
AS

25

나를 가장 만족시킨 대답은 샘플의 일반화에서 n 차원 유클리드 공간으로 자연스럽게 나왔다는 것입니다. 그것이 반드시해야 할 일인지 여부는 확실하지만 논쟁의 여지가 있습니다.

측정 값 가 각각 의 축 이라고 가정합니다 . 그런 다음 데이터 는 해당 공간에서 점 를 정의합니다 . 이제 데이터가 서로 매우 유사하다는 것을 알 수 있으므로 의해 정의 된 행에 있는 단일 위치 매개 변수 를 나타낼 수 있습니다 . 이 선에 데이터 포인트를 투영하면 가되고 투영 포인트 에서 실제 데이터 포인트 까지의 거리는.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

이 접근법은 또한 상관 관계에 대한 기하학적 해석을 제공합니다. .ρ^=cos(x~,y~)


7
이것은 정확하고 매력적입니다. 그러나 결국 실제로 질문에 대답하지 않고 질문을 다시 표현하는 것처럼 보입니다. 즉, 왜 유클리드 (L2) 거리를 사용해야합니까?
whuber

20
@sesqu 1809 년 가우스가 절대 오차가 아닌 제곱 오차를 시작점으로 사용하여 시조 편차를 도출 할 때까지 표준 편차는 일반적이지 않았다. 그러나 그것들을 위로 밀어 넣은 것은 Galton의 회귀 이론 (당신이 암시하는)과 ANOVA가 제곱의 합을 분해하는 능력이었습니다. 피타고라스 정리의 재 진술에 해당합니다. L2 규범. 따라서 SD는 Fisher의 1925 "연구원을위한 통계적 방법"에서 옹호 된 자연스러운 옴니버스 확산 척도가되었으며 85 년 후 우리는 여기에 있습니다.
whuber

13
(+1) @whuber의 정맥에서 계속해서, 학생이 1908 년에 "평균의 오류-이봐, 얘들 아, 분모의 MAE를 확인하라!"라는 제목의 논문을 출판 한 것이 틀림 없다. 통계는 지금까지 완전히 다른 모습을 보일 것입니다. 물론, 그는 그런 논문을 출판하지 않았으며, 물론 MAE가 S ^ 2가 가지고있는 훌륭한 속성을 모두 자랑하지 않기 때문에 가질 수 없었습니다. 그중 하나 (학생과 관련됨)는 평균 (일반적인 경우)의 독립성입니다. 물론 직교성을 다시 말하면 L2와 내부 제품으로 바로 되돌아갑니다.

3
이 답변은 생각을 불러 일으키는 것이 었으며 내가보기를 선호하는 방식이라고 생각합니다. 1 차원에서는 왜 차이를 제곱하는 것이 더 나은지 이해하기 어렵습니다. 그러나 여러 차원 (또는 심지어 2)에서 유클리드 거리 (제곱)가 맨해튼 거리 (절대 절대 값의 합)보다 선호된다는 것을 쉽게 알 수 있습니다.
thecity2

1
@whuber "Xᵢ = μ로 정의 된 선"이 무엇을 의미하는지 설명해 주시겠습니까? 원점과 점 (μ, μ, ..., μ)을 통과하는 선입니까? 또한 이것에 대해 더 읽을 수있는 곳은 어디입니까?
아치 스탠턴

18

평균과의 차이를 제곱하는 데는 몇 가지 이유가 있습니다.

  • 분산은 편차의 두 번째 모멘트 (여기서 RV는 )로 정의되므로 모멘트 인 제곱은 단순히 랜덤 변수의 더 높은 거듭 제곱의 기대치입니다.(xμ)

  • 절대 값 함수와 반대로 제곱을 갖는 것은 연속적이고 차별화 가능한 함수를 제공합니다 (절대 값은 0에서 구별 할 수 없음). 이는 특히 추정 및 회귀 분석의 맥락에서 자연스럽게 선택합니다.

  • 제곱 된 공식은 자연적으로 정규 분포의 모수에서 벗어납니다.


17

또 다른 이유 (위의 우수한 것들과 더불어)는 표준 편차가 절대 편차보다 "효율적"이라는 피셔 자신에게서 나왔습니다. 여기에서 통계는 모집단의 다양한 표본 추출에서 통계 값이 얼마나 변동하는지와 관련이 있습니다. 모집단이 정규 분포를 따르는 경우 해당 모집단의 다양한 표본에 대한 표준 편차는 평균적으로 서로 비슷한 값을 나타내는 경향이있는 반면, 절대 편차는 조금 더 퍼지는 숫자를 제공합니다. 자, 이것은 분명히 이상적인 환경에 있지만,이 이유 때문에 많은 사람들이 수학을 더 깨끗하게 할 수 있었으므로 대부분의 사람들은 표준 편차로 일했습니다.


6
귀하의 주장은 정규적으로 배포되는 데이터에 달려 있습니다. 모집단에 "이중 지수"분포가 있다고 가정하면 절대 편차가 더 효율적입니다 (실제로는 척도에 충분한 통계량 임)
확률 론적

7
예, "인구가 정상적으로 분포되어 있다면"
Eric Suh

정규 분포를 가정 할 때 Fisher 피셔는 오류없는 측정을 가정합니다. 상황이 반전 평균 절대 편차가 표준 편차보다 효율적입니다 1 % 같은 작은 오류와
juanrga

14

사람들이 알듯이 같은 주제에 대해 수학 오버플로 질문이 있습니다.

표준 편차에 대한 이유가 그렇게 냉정한 이유는?

테이크 아웃 메시지는 분산의 제곱근을 사용하면 수학이 쉬워진다는 것입니다. 위의 Rich와 Reed도 비슷한 반응을 보여줍니다.


3
수식과 값이 주어진 데이터 세트를 더 정확하게 반영하기를 원할 때 '쉬운 수학'은 필수 요건이 아닙니다. 컴퓨터는 어쨌든 모든 노력을 다합니다.
Dan W

pi를 3.14로 정의하면 수학이 더 쉬워 지지만 그것이 옳은 것은 아닙니다.
James

13

차이는 부가 적입니다 : 독립 랜덤 변수 , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

이것이 무엇을 가능하게하는지 주목하십시오 : 공정한 동전을 900 번 던지십시오. 내가 얻는 헤드 수가 440에서 455 사이에있을 확률은 얼마입니까? 예상 헤드 수 ( )와 헤드 수의 분산 ( )을 찾은 다음 기대 표준 (또는 가우시안) 분포로 확률을 표준 편차 는 와 . 아브라함 데 모 이브 르 (Abraham de Moivre)는 18 세기 동전 던지기로 이것을 행했으며, 먼저 종 모양의 곡선이 가치가 있음을 보여주었습니다.450225=15245015439.5455.5


평균 절대 편차는 분산과 같은 방식으로 추가되지 않습니까?
russellpierce 2013

6
아니야, 그들은 그렇지 않아.
Michael Hardy

10

단일 변수를 넘어 선형 회귀에 대해 생각하면 절대 편차와 제곱 편차의 대비가 더 명확 해집니다. http://en.wikipedia.org/wiki/Least_absolute_deviations , 특히 "최소 절대 편차와 최소 사각형을 대조"섹션 에서 멋진 토론 이 있습니다 . .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

요약하면, 최소 절대 편차는 일반 최소 제곱보다 특이 치에 비해 강력하지만 불안정 할 수 있습니다 (단일 데이텀의 작은 변화도 적합 선에 큰 변화를 줄 수 있음). 항상 고유 한 솔루션이있는 것은 아닙니다. 모든 피팅 라인. 또한 최소 절대 편차에는 반복 방법이 필요하지만 일반 최소 제곱에는 단순한 닫힌 형태의 솔루션이 있지만 현재 Gauss and Legendre 시대와 같이 큰 문제는 아닙니다.


"고유 솔루션"인수는 매우 약합니다. 이는 실제로 데이터가 잘 지원하는 하나 이상의 값이 있음을 의미합니다. 또한 L2와 같은 계수의 불이익은 고유성 문제와 안정성 문제도 어느 정도 해결합니다.
probabilityislogic

10

여러 가지 이유가 있습니다. 아마도 주 분포는 정규 분포의 매개 변수로 잘 작동한다는 것입니다.


4
동의한다. 정규 분포를 가정 할 경우 표준 편차는 분산을 측정 하는 올바른 방법입니다. 그리고 많은 분포와 실제 데이터는 대략 정상입니다.
카슈 우 Lew

2
"자연 모수"라고 말하지는 않습니다. 정규 분포의 자연 모수는 평균 및 평균 시간 정밀도입니다. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG 좋은 지적; 나는 여기서 "캐주얼"의 의미를 생각하고있었습니다. 나는 더 나은 단어에 대해 생각할 것입니다.

8

여러 가지면에서 분산을 요약하기 위해 표준 편차를 사용하는 것이 결론에 이르렀습니다. SD는 평균 이상의 거리와 평균 이하의 거리를 동일하게 처리하기 때문에 내재적으로 대칭 분포를 가정한다고 말할 수 있습니다. SD는 놀랍게도 비 통계 학자에게는 해석하기가 어렵다. 지니의 평균 차이가 더 광범위하게 적용되며 훨씬 더 해석하기 쉽다고 주장 할 수 있습니다. SD의 사용이 평균을 위해하는 것처럼 중심 경향의 척도에 대한 선택을 선언 할 필요는 없다. Gini의 평균 차이는 두 가지 관측치 간의 평균 절대 차이입니다. 강력하고 해석하기 쉬울뿐만 아니라 분포가 실제로 가우스 인 경우 SD만큼 0.98이 효율적입니다.


2
: 그냥 지니에, 여기에 좋은 종이가있다 @에 프랭크의 제안을 추가하는 projecteuclid.org/download/pdf_1/euclid.ss/1028905831 그것은 분산의 다양한 조치 넘어도 유익한 역사적 관점을 제공합니다.
Thomas Speidel

1
나는 이러한 아이디어들도 좋아하지만, 위치 매개 변수로서의 수단을 참조하지 않는 분산 (및 SD)에 대한 덜 알려진 병렬 정의가있다. Gini 평균 차이가 모든 쌍 차이의 절대 값을 기반으로하는 것처럼 분산은 값 사이의 모든 쌍 차이에 대한 평균 제곱의 절반입니다.
Nick Cox

7

분포의 표준 편차를 추정하려면 거리를 선택해야합니다.
다음 거리 중 하나를 사용할 수 있습니다.

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

우리는 보통 자연 유클리드 거리 ( )를 사용하는데, 이는 모두가 일상 생활에서 사용하는 거리 입니다. 제안하는 거리는 거리입니다 . 둘 다 좋은 후보이지만 서로 다릅니다.n = 1n=2n=1

을 사용하기로 결정할 수도 있습니다.n=3

나는 당신이 내 대답을 좋아할 것이라고 확신하지 못합니다. 다른 사람들과 반대되는 요점은 가 더 낫다는 것을 나타내지 않습니다 . 분포의 표준 편차를 추정하려면 절대 다른 거리를 사용할 수 있다고 생각합니다.n=2


6

"데이터의 확산"이라고 말할 때 말하는 내용에 따라 다릅니다. 나에게 이것은 두 가지를 의미 할 수 있습니다.

  1. 샘플링 분포의 너비
  2. 주어진 견적의 정확성

포인트 1)의 경우 정규 표본 추출 분포가있는 경우를 제외하고는 표준 편차를 확산 측정으로 사용해야하는 특별한 이유가 없습니다. Laplace Sampling 분포 의 경우 측정 값 가 더 적절한 측정 값입니다 . 내 생각에 2) 지점에서 직관이 이어지기 때문에 표준 편차가 여기에 사용됩니다. 아마도 표준 편차가 적절한 척도 인 최소 제곱 모델링의 성공 때문일 수도 있습니다. 아마도 대부분의 분포에서 계산하는 것이 일반적으로 를 계산하는 것보다 쉽기 때문일 것 입니다.E(|Xμ|)E(X2)E(|X|)

이제 포인트 2)의 경우 분산 / 표준 편차를 확산의 척도로 사용하는 데는 매우 적절한 이유가 있지만, 매우 일반적인 경우입니다. Laplace 근사치에서 후부로 볼 수 있습니다. 데이터 및 이전 정보 로 다음과 같이 매개 변수 의 사후를 작성하십시오 .DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

나는 분모가 의존하지 않음을 나타 내기 위해 더미 변수로 를 사용했습니다 . 후자가 단일 반올림 최대 값을 갖는 경우 (즉, "경계"에 너무 가깝지 않은 경우) 최대 대한 로그 확률을 확장 할 수 있습니다 . 우리가 테일러 확장의 처음 두 용어를 취하면 우리는 다음과 같이 얻을 수 있습니다 (분화를 위해 소수 사용).tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

그러나 여기서 우리는 가 "잘 반올림 된"최대 값이므로 이므로 다음과 같이합니다.θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

이 근사값을 꽂으면 다음과 같은 결과가 나타납니다.

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

그러나 표기법의 경우 평균은 이고 분산은E(θDI)θmax

V(θDI)[h(θmax)]1

( 는 반올림 된 최대 값을 가지므로 항상 양수입니다). 따라서 이는 "정규 문제"(대부분의 문제)에서 분산이 추정값의 정확도를 결정하는 기본 수량임을 의미합니다 . 따라서 많은 양의 데이터를 기반으로 한 추정의 경우 이론적으로 표준 편차가 의미가 있습니다. 기본적으로 알아야 할 모든 것을 알려줍니다. 본질적으로 는 Hessian 행렬입니다. 대각선 항목도 본질적으로 차이가 있습니다.h(θmax)θh(θ)jk=h(θ)θjθk

MLE가 데이터의 가중치 조합 인 경향이 있기 때문에 최대 우도의 방법을 사용하는 잦은 주의자는 본질적으로 동일한 결론에 도달하게됩니다. 큰 표본의 경우 중앙 한계 정리가 적용되며 이지만 와 : (내가 선호하는 패러다임을 추측 할 수 있는지 확인하십시오 : P). 따라서 매개 변수 추정에서 표준 편차는 중요한 이론적 인 스프레드 측정입니다.p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"절대 가치를 취하는 것"대신 "왜 차이를 제곱 하는가?" 매우 정확하게 대답하기 위해, 채택 된 이유와 그 이유 중 대부분이 유지되지 않는 이유를 설명하는 문헌이 있습니다. "우리는 단순히 절대 가치를 취할 수 없다 ...?" 나는 그 대답이 맞다는 문헌을 알고 있으며, 그렇게하는 것이 유리하다고 주장한다.

저자 Gorard는 먼저 사각형을 사용하는 것이 계산의 단순성 때문에 원래 채택되었지만 원래의 이유는 더 이상 유지되지 않는다고 말합니다. Gorard는 둘째, Fisher가 OLS를 사용한 분석 결과에서 절대 차이를 사용한 것보다 편차가 더 작다는 사실을 발견했기 때문에 OLS가 채택되었다고 말합니다 (대략 언급). 따라서 OLS는 일부 이상적인 상황에서 이점이있을 수 있습니다. 그러나 Gorard는 실세계 조건 (관찰의 불완전한 측정, 불균일 분포, 표본으로부터 유추하지 않은 집단에 대한 연구)에서 제곱을 사용하는 것이 더 나쁘다는 일부 합의가 있음을 지적합니다. 절대적인 차이.

귀하의 질문에 대한 Gorard의 답변 "우리는 단순히 차이의 절대 값을 취하여 그 값의 예상 값 (평균)을 얻을 수 없습니까?" 예입니다. 또 다른 장점은 차이를 사용하면 인생에서 그러한 아이디어를 경험하는 방식과 관련된 측정 (오류 및 변형 측정)을 생성한다는 것입니다. 고라 드는 식당 계산서를 균등하게 나누는 사람들을 상상 해보자. 아무도 오류를 제곱하지 않습니다. 차이점이 핵심입니다.

마지막으로, 절대 차이를 사용하면 각 관측 값을 동일하게 처리하는 반면 대조적으로 차이를 제곱하면 관측 값이 잘 예측 된 관측 값보다 가중치가 크게 예측되지 않습니다. 이는 특정 관측 값을 여러 번 연구에 포함시키는 것과 같습니다. 요약하자면, 그의 일반적인 견해는 오늘날 사각형을 사용해야 할 승리 이유가 많지 않으며 절대적인 차이를 사용하는 것이 장점이 있다는 것입니다.

참고 문헌 :


1
@Jen에게 감사합니다. 이것은 QWERTY 키보드 기록을 상기시킵니다. QWERTY를 입력하는 데 시간이 얼마나 걸립니까?
toto_tico

5

정사각형은 절대 값보다 더 많은 다른 수학 연산이나 함수를 더 쉽게 사용할 수 있기 때문입니다.

예 : 정사각형을 통합하고 차별화 할 수 있으며 삼각법, 대수 및 기타 기능에 쉽게 사용할 수 있습니다.


2
나는 여기에 자기 성취 적 예언이 있는지 궁금합니다. 우리는 다음을 얻습니다
chanceislogic

5

랜덤 변수를 추가 할 때 모든 분포에 대해 분산이 추가됩니다. 분산 (따라서 표준 편차)은 거의 모든 분포에 유용한 척도이며 가우스 분포 (일명 "정규") 분포에 제한되지 않습니다. 그것은 우리의 오류 척도로 사용하는 것을 선호합니다. 고유성 결여는 절대적으로 차이가있는 심각한 문제입니다. 종종 동일한 수의 "피트"가 무한하지만 "중간에 하나"가 가장 현실적으로 선호되기 때문입니다. 또한 오늘날의 컴퓨터에서도 계산 효율성이 중요합니다. 큰 데이터 세트로 작업하며 CPU 시간이 중요합니다. 그러나 일부 이전 답변에서 지적했듯이 잔차에 대한 절대적인 "최상의"단일 측정 값은 없습니다. 상황에 따라 때때로 다른 조치가 필요합니다.


2
분산이 비대칭 분포에 매우 유용하다는 것을 확신하지 못합니다.
Frank Harrell

한 쌍의 "반 분산"은 어떤가?
kjetil b halvorsen

3

당연히 의미있는 방식으로 분포의 분산을 설명 할 수 있습니다 (절대 편차, Quantile 등).

한 가지 좋은 사실은 분산이 두 번째 중심 모멘트이며 모든 분포는 존재하는 경우 모멘트로 고유하게 설명됩니다. 또 다른 좋은 사실은 분산이 다른 어떤 메트릭보다 수학적으로 훨씬 다루기 쉽다는 것입니다. 또 다른 사실은 분산이 정규 모수화에 대한 정규 분포의 두 매개 변수 중 하나이며, 정규 분포에는 두 개의 매개 변수 인 0이 아닌 중심 모멘트가 2 개만 있다는 것입니다. 비정규 분포에서도 정규 프레임 워크로 생각하면 도움이 될 수 있습니다.

내가 알다시피, 표준 편차가 존재하는 이유는 응용 프로그램에서 분산의 제곱근이 규칙적으로 나타나며 (예 : 임의의 가변적 표준화), 그에 대한 이름이 필요했기 때문입니다.


1
내가 정확하게 기억한다면, 로그 정규 분포는 그 순간에 의해 고유하게 정의되지 않은 것입니다.
probabilityislogic

1
사실 @probabilityislogic은 "특성 함수 및 모멘트 생성 기능"섹션에서 en.wikipedia.org/wiki/Log-normal_distribution 을 참조하십시오 .
kjetil b halvorsen

1

선형 회귀 분석과 중앙 회귀 분석에 대해 생각할 때 다른 직관적 인 방법이 있습니다.

모델이 . 그런 다음 b는 예상 제곱 잔차 인 를 최소화함으로써 b를 찾습니다 .E(y|x)=xββ=argminbE(yxb)2

대신 모델이 중간 값 이면 절대 잔차 를 최소화하여 모수 추정값을 찾습니다 ..(y|x)=xββ=argminbE|yxb|

즉, 절대 오차 또는 제곱 오차를 사용할지 여부는 예상 값을 모델링할지 중간 값을 모델링할지에 따라 다릅니다.

예를 들어 분포가 기울어 진 이분산성을 표시하는 경우 의 예상 값 기울기가 에 대해 어떻게 변화 하는지 와 의 중간 값에 대한 기울기가 어떻게 변하는 지에 큰 차이가 있습니다.yxy

Koenker와 Hallock은 Quantile Regression에 대한 훌륭한 자료를 가지고 있는데, 여기서 회귀 중앙값은 특별한 경우입니다 : http://master272.com/finance/QR/QRJEP.pdf .


0

내 추측은 이것입니다 : 대부분의 인구 (분포)는 평균 주위에 모이는 경향이 있습니다. 값이 평균에서 멀수록 더 ​​드문 것입니다. 값이 얼마나 "줄을 벗어 났는가"를 적절하게 표현하기 위해서는 평균으로부터의 거리와 (보통 말하면) 발생 빈도를 모두 고려해야합니다. 편차가 더 작은 값과 비교하여 평균과의 차이를 제곱합니다. 모든 분산이 평균화되면 제곱근을 취하여 단위를 원래 치수로 되 돌리는 것이 좋습니다.


2
이것은 왜 당신이 차이 의 절대 가치 를 취할 수 없었는지를 설명하지 않습니다 . 이는 대부분의 스탯 101 학생들에게 개념적으로 더 단순 해 보이며 "평균과의 거리 (일반적으로 말하면) 발생 빈도"를 모두 고려할 것입니다.
gung

차이의 절대 값은 평균과의 차이 만 표현할 뿐이고 큰 차이가 정규 분포에 이중으로 파괴적이라는 사실을 고려하지 않을 것이라고 생각합니다.
Samuel Berry

2
왜“심하게 파괴적인”것이 중요하고“삼중 파괴적인”또는“사 분류 방해”가 아닌가? 이 답변은 원래 질문을 동등한 질문으로 대체하는 것처럼 보입니다.
whuber

0

제곱은 큰 편차를 증폭시킵니다.

표본에 차트 전체의 값이있는 경우 첫 번째 표준 편차 내에 68.2 %를 가져 오려면 표준 편차가 약간 더 넓어야합니다. 데이터가 모두 평균에 해당하는 경우 σ가 더 엄격 할 수 있습니다.

어떤 사람들은 계산을 단순화하는 것이라고 말합니다. 제곱의 양의 제곱근을 사용하면 인수가 부동되지 않도록 해결할 수 있습니다.

|x|=x2

따라서 대수 단순성이 목표라면 다음과 같이 보일 것입니다.

σ=E[(xμ)2] 와 동일한 결과를 생성합니다 .E[|xμ|]

분명히 이것을 제곱하면 외부 오차를 증폭시키는 효과가 있습니다 (도!).


방금 처리 한 플래그를 바탕으로, downvoter가이 답변이 질문에 어떻게 응답하는지 완전히 이해하지 못했다고 생각합니다. 나는 그 연결이 보인다고 생각하지만 (그러나 그럼에도 불구하고 다른 독자들이 당신의 요점을 더 잘 이해하도록 돕기 위해 약간의 편집을 고려할 수도 있습니다) 그러나 첫 번째 단락은 다소 순환적인 주장으로 생각합니다 .68.2 % 값은 표준 편차의 속성에서 파생되므로 해당 숫자를 호출하면 다른 표준 편차 대신 SD를 사용하여 정당화하는 데 어떻게 도움 이됩니까? 분포의 확산을 정량화하는 방법으로 평균으로부터? Lp
whuber

첫 번째 단락은 저의 공감대 사유였습니다.
Alexis

3
@Preston Thayne : 표준 편차가 의 예상 값 이 아니므로sqrt((x-mu)^2) 공식이 잘못되었습니다. 또한, 제곱이 큰 편차를 증폭시키는 효과가 있다고해서 이것이 MAD 보다 분산을 선호하는 이유는 아닙니다 . 어떤 경우에는 종종 MAD 와 같이 더 강력한 것을 원하기 때문에 중립적 인 속성 입니다. 마지막으로, 분산MAD 보다 수학적으로 다루기 쉽다는 사실 은 수학적 으로이 게시물에서 전달한 것보다 훨씬 더 깊은 문제입니다.
Steve S

0

표준 편차에서 절대 값을 취하는 대신 차이를 제곱하는 이유는 무엇입니까?

자유도 (인구 측정에서 x의 수)의 제곱근에 비례하는 유클리드 거리가 분산의 가장 좋은 척도이기 때문에 x와 평균의 차이를 제곱합니다.

거리 계산

점 0에서 점 5까지의 거리는 얼마입니까?

  • 50=5 ,
  • |05|=5 이고
  • 52=5

좋아, 그것은 하나의 차원이기 때문에 사소한 것입니다.

점 0, 0에서 점 3, 4까지의 점 거리는 어떻습니까?

도시 블록과 같이 한 번에 1 차원으로 만 갈 수 있다면 숫자를 더하면됩니다. (맨해튼 거리라고도 함).

그러나 한 번에 2 차원으로가는 것은 어떻습니까? 그런 다음 (우리 모두 고등학교에서 배운 피타고라스 정리에 의해) 우리는 각 차원에서 거리를 제곱하고 제곱을 합한 다음 제곱근을 취하여 원점에서 점까지의 거리를 찾습니다.

32+42=25=5

0, 0, 0에서 1, 2, 2까지의 거리는 어떻습니까?

이건 그냥

12+22+22=9=3

처음 두 x의 거리가 최종 x와의 총 거리를 계산하기위한 구간을 형성하기 때문입니다.

x12+x222+x32=x12+x22+x32

우리는 각 차원의 거리를 제곱하는 규칙을 계속 확장 할 수 있습니다. 이것은 초 차원 공간에서 직교 측정을 위해 다음과 같이 유클리드 거리라고 일반화합니다.

distance=i=1nxi2

직교 제곱의 합은 제곱 거리입니다.

distance2=i=1nxi2

측정을 다른 측정과 직교 (또는 직각)하는 것은 무엇입니까? 조건은 두 측정 사이에 관계가 없다는 것입니다. 우리는 이러한 측정 값이 독립적이고 개별적으로 분포 되어 있는지 ( iid ) 찾을 것입니다.

변화

이제 모집단 분산에 대한 공식을 기억하십시오 (표준 편차를 얻을 수 있음).

σ2=i=1n(xiμ)2n

평균을 빼서 데이터를 0으로 이미 중앙에 둔 경우 다음과 같은 결과가 나타납니다.

σ2=i=1n(xi)2n

따라서 분산은 단지 제곱 거리를 자유도 (변수가 자유롭게 변할 수있는 차원의 수)로 나눈 것입니다. 이는 측정 당 의 평균 기여도 입니다. "평균 제곱 분산"도 적절한 용어입니다.distance2

표준 편차

그런 다음 표준 편차가 있습니다. 이는 표준 편차입니다.

σ=i=1n(xiμ)2n

거리 도 자유도의 제곱근으로 나눈 것과 같습니다 .

σ=i=1n(xi)2n

평균 절대 편차

MAD (Mean Absolute Deviation)는 맨해튼 거리 또는 평균과의 차이의 절대 값의 합을 사용하는 분산 측정입니다.

MAD=i=1n|xiμ|n

다시 데이터가 중심에 있다고 가정하면 (평균 차감) 맨해튼 거리를 측정 수로 나눈 값입니다.

MAD=i=1n|xi|n

토론

  • 평균 절대 편차는 정규 분포 데이터 세트의 표준 편차 크기의 약 0.8 배 ( 실제로2/π )입니다.
  • 분포에 관계없이 평균 절대 편차는 표준 편차보다 작거나 같습니다. MAD는 표준 편차와 관련하여 극단적 인 값으로 데이터 세트의 분산을 강조합니다.
  • 평균 절대 편차는 특이 치에 대해 더 강력합니다. 즉, 특이 치가 표준 편차에 대한 통계만큼 큰 영향을 미치지 않습니다.
  • 기하학적으로 말하자면, 측정 값이 서로 직교하지 않는 경우 (iid)-예를 들어 양의 상관 관계가있는 경우 평균 절대 편차는 표준 편차보다 더 나은 기술 통계량이되며 유클리드 거리에 의존합니다 (일반적으로 미세한 것으로 간주되지만) ).

이 표는 위의 정보를보다 간결하게 반영합니다.

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

코멘트:

"평균 절대 편차는 정규 분포 데이터 세트의 표준 편차 크기의 약 0.8 배"에 대한 참조가 있습니까? 내가 실행중인 시뮬레이션은 이것이 잘못되었음을 보여줍니다.

표준 정규 분포에서 백만 개의 샘플에 대한 10 가지 시뮬레이션이 있습니다.

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

결론

유클리드 거리를 이용할 수 있기 때문에 분산 척도를 계산할 때 제곱 차이를 선호합니다. 상대적으로 극단적 인 값이 있으면 유클리드 거리는 통계의 거리를 차지하는 반면 맨해튼 거리는 각 측정에 동일한 가중치를 부여합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.