분산 측정이 중심보다 직관적이지 않은 이유는 무엇입니까?


11

인간의 이해에는 분산의 개념을 직관적으로 파악하는 데 어려움이있는 것으로 보입니다. 좁은 의미에서 그 대답은 즉각적입니다. 제곱은 우리를 재귀적인 이해에서 멀어지게합니다. 그러나 문제를 나타내는 것은 단지 차이 일까요, 아니면 데이터에 퍼지는 전체 아이디어일까요? 우리는 범위 에서 피난처를 찾습니다또는 최소값과 최대 값을 표시하지만 실제 어려움을 피하고 있습니까? 평균 (모드 또는 중앙값)에서 중심, 요약 ... 단순화를 찾습니다. 분산은 사물을 퍼 뜨리고 불편하게 만듭니다. 원시인은기도를 삼각 측량하여 동물 사냥에서 평균을 사용했을 것입니다. 그러나 나는 우리가 사물의 확산을 정량화해야 할 필요성을 느낀다고 생각합니다. 실제로, 분산이라는 용어는 최근 1918 년 "Mandelian 상속 가정에 대한 친척 간의 상관 관계"라는 논문에서 Ronald Fisher에 의해 처음 소개되었습니다 .

뉴스를 따르는 대부분의 사람들은 성별에 따른 수학 적성에 관한 Larry Summers의 불행한 연설에 대한 이야기를 들었을 것 입니다. 간단히 말해서, 그는 두 성별이 같은 평균을 가졌음에도 불구하고, 여성에 비해 남성들 사이의 수학 역량 분포에있어서 더 넓은 차이를 제안했습니다. 적절성이나 정치적 의미에 관계없이, 이것은 과학 문헌에서 입증 된 것으로 보인다 .

더 중요한 것은 아마도 기후 변화 와 같은 문제에 대한 이해 -토론으로 불완전하게 이끄는 주제를 제기 해 주신 것을 용서해주십시오. 일반 대중의 경우 분산 아이디어에 대한 친숙성이 향상 될 수 있다는 것입니다.

이 게시물 에서 볼 수 있듯이 @whuber의 훌륭하고 다채로운 답변을 제공하는 공분산 을 파악하려고하면 문제가 더욱 복잡해 집니다 .

너무 일반적으로이 질문을 기각 유혹 수 있지만, 우리가 같이 간접적으로 논의되는 것이 분명하다 이 게시물 수학은 사소한, 아직 개념이 애매되는 더 편안하게 수용 belying에 유지 범위 등을 더 미묘한 아이디어 차이와 반대 .

Fisher에서 EBFord보낸 서한에서 멘델의 실험에 대한 그의 의혹에 대한 논쟁을 언급하면서, 우리는 다음과 같이 읽습니다. "이제 데이터가 위조되었을 때 사람들이 일반적으로 광범위한 확률 편차의 빈도를 과소 평가 하여 "멘델의 데이터에서] 편차는 놀라 울 정도로 작습니다." 위대한 RA 피셔는 소 표본에서 소량의 편차를 의심하고 싶어서 다음같이 썼다 .

그리고 과소 평가 나 오해 확산에 대한 이러한 편견이 오늘날에도 지속될 수 있습니다. 그렇다면 분산보다 중심 개념에 더 편한 이유에 대한 설명이 있습니까? 아이디어를 내면화하기 위해 할 수있는 일이 있습니까?

우리는 어떤 개념을 순식간에 "본다"고 생각하지 않지만 아직 받아들이지 않고 계속합니다. 예를 들어, 또는 E = m c 2 이지만 일상 생활에서 결정을 내릴 때 이러한 정체성에 대해 알 필요조차 없습니다. 분산도 마찬가지입니다. 더 직관적이지 않아야합니까?이자형나는π+1=0이자형=미디엄2

Nassim Taleb은 위기에 처한시기에 분산에 대한 결함에 대한 이해에 대한 자신의 (실제로 Benoit Mandelbrot의 ) 인식을 적용하여 운을 내었고 , "변동의 분산은 인식 론적으로 , 평균에 대한 지식의 부족에 대한 지식의 부족의 척도 "- 예,이 입에 더 상황이 ... 그리고 자신의 신용에, 그는 또한으로는 간단했다 추수 감사절 터키 아이디어. 투자의 핵심은 분산 (및 공분산)을 이해하는 것입니다.

그렇다면 왜 그렇게 미끄러 우며 어떻게 고칠 수 있습니까? 공식이 없으면 ... 불확실성을 다루는 수년간의 직관 ... 나는 대답을 모르겠지만 수학 (필수적으로는)이 아닙니다. 예를 들어, 첨도의 아이디어가 분산을 방해하는지 궁금합니다. 다음 그림에는 거의 동일한 분산으로 겹치는 두 개의 히스토그램이 있습니다. 그러나 내 무릎 저크 반응은 꼬리가 가장 길고 가장 높은 피크 (높은 첨도)가 더 많이 퍼져 있다는 것입니다.


2
분산 은 제곱이기 때문에 대부분 이해하기 어렵습니다. 사람들은 평균 절대 편차로 너무 많은 어려움을 겪지 않는 것 같습니다. (저는 보통이 아이디어를 사용하여 표준 편차까지 작동합니다.)
gung-Reinstate Monica

배운 것을 이해하기는 어렵지만 제목의 전제가 올바른지 확신 할 수 없습니다. 예를 들어, 범위를 포함한 차이는 어떤 방식으로 평균 또는 중앙값과 같은 요약 보다 직관적 으로 보입니다 . 계정이 다릅니다. 그러나 평균은 고전 수학에서 발생하지만 데이터를 요약하는 데 사용되는 것은 17 세기 경에 서서히 고통스럽게 만 나타났습니다.
Nick Cox

1
희망에 대한 대답은 반드시 문제와 관련이없는 구체적인 내용으로 전환되지는 않습니다.이 질문은 분산 자체 (제곱에 대한 토론이 관련 될 수 있음) 또는보다 일반적인 개념에 대한 것 입니까? 가변성 관한 것입니까? (분산, 확산, 변형-그렇지 않은)? [나는 또한 우리가 다른 사람들의 상대적인 직관적 인 감각에 대해 실제로 일반화 할 수있는 정도에 대해 궁금합니다]
Glen_b -Reinstate Monica

후자의. 분명히해야합니다. 전반적인 질문에 대해 잘 모르겠습니다. 닫으십시오.
Antoni Parellada

@Antoni 왜 닫고 싶습니까? 어느 쪽이든 좋은 질문 일 것입니다. 답이 다를뿐입니다.
Glen_b-복지 주 모니카

답변:


9

분산이 약간 덜 직관적이라는 느낌을 공유합니다. 더 중요한 것은 측정 값으로서의 분산은 특정 분포에 대해 최적화되며 비대칭 분포에 대한 가치가 적습니다. 평균과의 절대 절대 차이는 내 관점에서 훨씬 직관적이지 않습니다. 평균 경향을 측정하기 위해 평균을 선택해야하기 때문입니다. 나는 Gini의 평균 차이를 선호합니다 --- 모든 관측 쌍에 대한 평균 절대 차이. 직관적이고 강력하며 효율적입니다. 효율성에서, 데이터가 가우스 분포에서 나온 경우, 적절한 재조정 계수를 적용한 Gini의 평균 차이는 표본 표준 편차만큼 0.98입니다. 데이터가 정렬되면 Gini의 평균 차이에 대한 효율적인 계산 공식이 있습니다. R 코드는 다음과 같습니다.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

분산을 지나치게 강조하는 경향이 있습니까? 나는 당신의 코드를 여기
Antoni Parellada

1
유효한 분산 측정입니다. 당신이 그 정의를 좋아한다면 아무것도 강조하지 않습니다.
Frank Harrell

물론. 나는 당신의 게시물을 배울 수있는 기회로 삼고 있으며 제 의견은 관심을 나타내는 방법이었습니다. 나는 그것에 대해 더 읽어야합니다. 감사합니다!
Antoni Parellada

1
벡터 x가 이미 정렬 된 경우에만 .
Frank Harrell

4

여기 내 생각이 있습니다. 그것은 당신이 당신의 질문을 볼 수있는 모든 각도를 다루지는 않습니다. 사실, 다루지 않는 것이 많이 있습니다 (질문은 조금 넓습니다).

일반인이 분산의 수학적 계산을 이해하기 어려운 이유는 무엇입니까?

차이는 본질적으로 사물이 퍼지는 정도입니다. 이것은 이해하기 쉽지만 계산 방법이 일반인에게는 반 직관적 인 것처럼 보일 수 있습니다.

문제는 평균과의 차이가 제곱 된 다음 평균화되고 표준 편차를 얻기 위해 제곱근을 형성한다는 것입니다. 우리는 왜이 방법이 필요한지 이해합니다. 제곱은 값을 양수로 만드는 것이며 원래 단위를 얻기 위해 제곱근입니다. 그러나 평신도 가 숫자가 제곱되고 제곱근 인 이유와 혼동 될 수 있습니다. 이것은 스스로 취소되는 것처럼 보이므로 (그렇지 않습니다) 무의미하거나 이상한 것처럼 보입니다.

그들에게 더 직관적 인 것은 단순히 평균과 각 점 사이의 절대 차이 (평균 절대 편차)를 평균화하여 확산을 찾는 것입니다. 이 방법에는 제곱 및 제곱근이 필요하지 않으므로 훨씬 직관적입니다.

평균 절대 편차가 더 간단하기 때문에 그것이 더 낫다는 것을 의미하지는 않습니다. 제곱이나 절대 값을 사용할 지에 대한 논쟁은 많은 저명한 통계 학자와 관련되어 한 세기 동안 진행되어 왔기 때문에 나와 같은 임의의 사람이 여기에 표시되어 하나가 더 좋다고 말할 수는 없습니다. (분산을 찾기 위해 평균 제곱 평균은 물론 더 인기가 있습니다)

간단히 말해서 : 편차를 찾기위한 Squaring은 절대 차이를 평균화하는 것이 더 직관적 인 일반인에게는 덜 직관적 인 것처럼 보입니다. 그러나 나는 사람들이 확산 자체에 대한 아이디어를 이해하는 데 문제가 있다고 생각하지 않습니다.


3
제곱 효과를 지적하면 +1 그러나 문제는 실제 수학적 구성을 넘어서서 확산을 측정한다고 생각합니다. 중심에서 멀어지면 자연스럽게 느껴지지 않습니다. 중심점은
Antoni Parellada

아, 알겠습니다 그것이 '확산'이나 확산을 찾는 구체적인 수학적 방법인지 확실하지 않았습니다. 나는
Yang Li

나는한다. 나는 불확실성의 정도를 이해하는 데 많은 어려움을 겪고 있으며, 이는 대부분 즉시 분산의 결과입니다. 나는 왜 그런지 모르겠다.
Antoni Parellada

3

여기에 귀하의 질문에 대한 의견이 있습니다.

나는 위에서 언급 한 대답에 의문을 제기 한 다음 내 요점을 찾으려고 노력할 것이다.

이전 가설에 대한 질문 :

실제로 제곱은 제곱 평균 편차와 같은 분산 측정을 이해하기 어렵습니까? 나는 수학적 복잡성을 가져 와서 사각형이 더 어려워진다는 데 동의하지만 정답 만 사각형이라면 평균 절대 편차는 이해하기 쉽고 중심성을 측정하는 것입니다.

의견:

분산 측정을 이해하기 어렵게 만드는 것은 분산 자체가 2 차원 정보라는 것입니다. 하나의 메트릭으로 2 차원 정보를 요약하려고하면 정보가 부분적으로 손실되어 혼란을 초래합니다.

예:

위의 개념을 설명하는 데 도움이되는 예는 다음과 같습니다. 서로 다른 두 가지 데이터 세트를 가져옵니다.

  1. 가우스 분포를 따릅니다.
  2. 알려지지 않은 비대칭 분포를 따릅니다.

표준 편차 측면에서 분산이 1.0이라고 가정합니다.

내 마음은 세트 2의 분산을 세트 2의 분산보다 훨씬 더 명확하게 해석하는 경향이 있습니다.이 특정한 경우에, 나의 더 나은 이해를위한 이유는 분포의 2 차원 형태를 미리 알고 있기 때문에 분포 측정을 이해할 수 있습니다. 중앙 가우시안 평균 주위의 확률. 다시 말해, 가우시안 분포는 분산 측정에서 더 잘 변환하는 데 필요한 2 차원 힌트를 제공했습니다.

결론:

요컨대, 2 차원 정보에있는 모든 것을 하나의 편차 측정에서 포착 할 수있는 확실한 방법은 없습니다. 분포 자체를 직접 보지 않고 분산을 이해하기 위해 일반적으로하는 것은 특정 분포를 설명하는 많은 측정 값을 결합하는 것입니다. 그들은 분산 측정 자체를 더 잘 이해하도록 내 마음의 맥락을 설정할 것입니다. 그래프를 사용할 수 있다면 박스 플롯은 실제로 시각화하는 데 유용합니다.

이 문제에 대해 많은 생각을하게 한 훌륭한 토론. 나는 당신의 의견을 듣고 기뻐할 것입니다.


1
잘 생각한 반응 +1. 조사해야 할 다른 이유가 있다고 생각한다는 점을 제외하고는 실제로 추가 할 것이 없습니다.
양 리

1

사람들이 변동성 (변이, 표준 편차, MAD 등)에 어려움을 겪는 단순한 이유는 중심 개념을 이해 한 후에야 실제로 변동성을 이해할 수 없기 때문이라고 생각합니다. 변동성 측정은 모두 중심으로부터의 거리를 기준으로 측정되기 때문입니다.

평균 및 중앙값과 같은 개념은 병렬 개념이므로 먼저 배울 수 있고 어떤 사람들은 한 사람을 더 잘 이해하고 다른 사람들은 다른 사람을 더 잘 이해할 수 있습니다. 그러나 스프레드는 중심 (일부 중심 정의)에서 측정되므로 실제로는 먼저 이해할 수 없습니다.


+1 많은 의미가 있습니다-이차 개념입니다.
Antoni Parellada

@ 그레그 스노우 : 정확하지 않은 것을 제외하고; Gini는 Frank Harrells의 답변과의 차이를 나타내므로 중심에서의 편차를 보장하지는 않습니다.
kjetil b halvorsen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.