"변이"를 직관적으로 이해


81

분산 개념을 누군가에게 설명하는 가장 깨끗하고 쉬운 방법은 무엇입니까? 직관적으로 무엇을 의미합니까? 자녀에게 이것을 설명한다면 어떻게해야할까요?

특히 분산과 위험을 연관시킬 때 분명히 설명하기 어려운 개념입니다. 나는 수학적으로 그것을 이해하고 그렇게 설명 할 수 있습니다. 그러나 실제 현상을 설명 할 때 어떻게 분산을 이해하게하는지, 그리고 그것이 '실제 세계'에 적용 할 수있게하는 것입니다.

임의의 숫자를 사용하여 주식에 대한 투자를 시뮬레이션한다고 가정 해 봅시다 (다이를 굴 리거나 엑셀 시트를 사용하는 것은 중요하지 않습니다). 우리는 랜덤 변수의 각 인스턴스를 수익의 '일부 변경'과 연관시켜 '투자 수익'을 얻습니다. 예 :

1을 굴린다는 것은 투자에서 $ 1 당 0.8의 변화를 , 5는 $ 1 당 1.1의 변화 등을 의미합니다.

이제이 시뮬레이션이 약 50 배 (또는 20 또는 100) 동안 실행되면 일부 가치와 투자의 최종 가치를 얻게됩니다. 그렇다면 '분산'은 실제로 위의 데이터 세트에서 계산할 것인지 알려줍니다. "볼 것"이란 무엇입니까-분산이 1.7654 또는 0.88765 또는 5.2342 인 것으로 판명되면 이것이 무엇을 의미합니까? 이 투자에 대해 무엇을 관찰 할 수 있습니까? 평신도 용어로 어떤 결론을 이끌어 낼 수 있습니까?

표준 편차에 대한 질문으로 자유롭게 질문하십시오! 이해하기가 더 쉬워 졌다고 생각하지만 '직관적으로'명확하게 만드는 데 기여할 수있는 것은 대단히 감사하겠습니다!


3
우리는이 질문을 작년에 요청한 것과 같은 질문으로 병합해서는 안 됩니까?
whuber

1
@ whuber 나는 이것들이 합쳐 져야한다고 생각합니다. 동일한 질문을 여러 번 갖는 경우 (여기서는 상황이 다르더라도) 평균 답변 품질이 떨어집니다.
로빈 지라드

2
병합되는 것은 괜찮지 만 분산을 계산하는 방법을 알고 있으며 통계에서도 사용됩니다. 나는이 개념을 아무 것도 모르는 사람들에게이 개념을 분명히 표현하고 싶기 때문에 그렇게하는 데 오랜 시간이 걸리므로 문제가됩니다. 의도는 SD, IMHO
PhD

2
저는 여러분 중 어느 누구도 Layman이 이해할 수있는 방식으로 이것에 대답하는 데 아주 좋은 일을하고 있다고 생각하지 않습니다. 나는 많은 가정이 이루어지고 거의 모든 대답은 해석해야 할 것으로 끝납니다. 나는 불평하지 않고 단지 지적하려고합니다. 나도 그 질문에 간단히 대답 할 수 없습니다. 어쩌면 너무 어려울까요?

아래 답변 중 어느 것도 여기에 대한 질문에 대답하지 않았다고 생각합니다. 내가 해석 할 때의 문제는 분산이 숫자인지에 관한 것입니다. 예를 들어 아래의 최상위 답변은 큰 분산과 작은 분산의 의미에 대한 질문을 다룹니다. 합리적으로 시각화 할 수없는 데이터 세트를 제공하여 숫자에 의존 해야하는 경우 분산이 크거나 작은 지 어떻게 알 수 있습니까?
user31415

답변:


70

편견과 분산의 개념을 소개 할 때 '레이 피 언트'에게 배운 것과 다트 보드 유사성과 비슷한 유추를 사용했을 것입니다. 아래를보십시오 :

여기에 이미지 설명을 입력하십시오

위의 특정 이미지 는 기계 학습 백과 사전 에서 가져온 것이며 이미지 내에서 참조는 Moore와 McCabe의 "통계 실습 소개" 입니다.

편집하다:

여기에 매우 직관적이라고 생각되는 연습이 있습니다 : 카드 한 벌 (상자에서 꺼내어)을 약 1 피트 높이에서 떨어 뜨립니다. 자녀에게 카드를 집어 들어달라고 부탁하십시오. 그런 다음, 갑판을 떨어 뜨리지 말고, 가능한 한 많이 던지고 카드를 땅에 떨어 뜨립니다. 자녀에게 카드를 집어 들어달라고 부탁하십시오.

두 번의 시험 동안 그들이 가지고있는 상대적인 재미는 그들에게 분산에 대한 직관적 인 느낌을 주어야합니다.


1
그래서 그것은 무엇을 의미합니까? 누군가가 보드에서 다트의 통계적 분산을 볼 수 있다면 무엇을 결론을 내립니까? 저 / 고 분산이 직관적으로 말하는 것은 무엇을 의미합니까?
PhD

1
나는 다음과 같이 말하고 싶다 : 우리가 4 개의 다트를 던졌다 고 해보자. 한꺼번에 보드에서 다트를 제거하는 데 필요한 손의 수는 다트 위치 증가 (참고의 차이로 증가 : 매우 비공식적 인 인수를 여기로이 같은 3 개 다트가 함께 그룹화되고 마지막 다트 때와 같은 반례의 수, darboard에서 3 피트 벽에).

2
귀하의 다이어그램은 정확성과 정확성을 구별하는 고전적인 방법을 공명하는 것처럼 보입니다! 그것은 단지 나를 때렸다!
PhD

2
AAAAAAAAAAAH! 좋은 운동! 저 / 고 분산을 갖는 것이 무엇을 의미하는지 누군가에게 보여주는 좋은 방법! 데이터 포인트의 평균 값 (평균)으로부터의 평균 거리 :)
PhD

2
(+1) 편향과 분산의 차이를 보여주는 다트 판-아날로그는 단순히 훌륭합니다
steffen

36

나는 농담으로 평신도에게 통계를 가르 치곤했고, 그들이 많이 배운 것을 발견했습니다.

분산 또는 표준 편차에 대해 다음 농담이 매우 유용하다고 가정하십시오.

농담

일단 4 피트와 5 피트의 두 통계학자가 평균 깊이 3 피트의 강을 건너야합니다. 한편 세 번째 통계학자가 와서 말했습니다. "무엇을 기다리고 있습니까? 쉽게 강을 건너 갈 수 있습니다"

저는 평신도가 '평균'용어에 대해 알고 있다고 가정합니다. 이 상황에서 그들이 강을 건너는 것과 같은 질문을 할 수 있습니까?

"상황에서 무엇을할지"를 결정하기 위해 '분산'이란 무엇을 놓치고 있습니까?

프레젠테이션 기술에 관한 모든 것입니다. 그러나 농담은 통계를 이해하려는 평신도에게 많은 도움이됩니다. 도움이 되길 바랍니다!


1
어쩌면 나는 통계 농담과 좋은 아니에요 (난 입니다 :) 비록 다른 사람들과 꽤 좋은. 그러나 나는 "상황에서 무엇을해야하는지"가 무엇을 의미하는지 이해하지 못한다고 생각합니까? 분산에 대한 아이디어가있는 경우 '정확하게'어떻게해야합니까? 어떻게 해석해야합니까?
PhD

6
@Nupul : 사실, "상황에서 무엇을해야합니까?"라는 말은 강을 건널까요? 분산 (또는 SD)을 알고 있다면 쉽게 결정할 수 있습니다. 분산이 0.25 (SD = 0.5)라고 가정하면 간격의 범위 (CI와 신뢰도를 혼동하지 마십시오)가 3 + 0.5 또는 3-0.5이고 높이가 4와 5이므로 강을 안전하게 건너 갈 수 있다고 가정합니다. 강을 건너지 않는 것이 좋습니다. 그건 그렇고, 여기에 농담을 즐기십시오 stats.stackexchange.com/questions/1337/statistics-jokes
Biostat

완전한! 알았습니다! :) 그것은 많은 의미가 있습니다. 실제로 여러 사람들의 대답을 결합하면 이해를 더 잘 이해할 수 있습니다 ...
PhD

또는 상어가 '평균적으로'사람들을 먹지 않는다면 매우 기분이 좋으면 (거의 변이가 큰) 위안이 거의 없습니다. 강 유추에서 그것은 당신이 당신의 머리 위로 당신을 데려 갈 단계를 취할 것인지에 관한 것입니다.
Dean Radcliffe

12

분산보다는 표준 편차에 중점을 둡니다. 분산의 규모가 잘못되었습니다.

평균이 일반적인 값인 것처럼 SD는 평균과 일반적인 (절대) 차이입니다. 평균적으로 분포를 접고 평균을 취하는 것과는 다릅니다.


1
동의했다. 우리가 SD에 집중한다고 가정 해 봅시다. 내 질문은 여전히 사람이 '높은 SD는하지 않는 것보다 더 직관적으로 다른 SD 이해하도록하는 방법으로 서 좋은 '... 그것은 분산의 제곱근은 이후 나는 평신도로 SD를 설명 할 방법!
PhD

@Nupul-두 번째 단락을 읽으십시오 : SD를 평균과의 전형적인 차이점으로 설명하겠습니다.
Karl

4
"평균적으로 분포를 접고 평균을 취하는 것과는 다릅니다." 그 게시물은 다른 게시물과 마찬가지로 표준 편차가 아닌 평균 절대 편차를 나타내는 것으로 보입니다.
매크로

3
@ 매크로-예; SD를 설명하려고 할 때 MAD에 의해 근사합니다. 나는 평균 제곱 대 평균 절대 값을 넘어서지 않는 것이 가장 좋습니다.
Karl

7

나는 사람들이 순수하게 분산을 확산으로 생각하도록 촉구하는 많은 답변에 동의하지 않습니다. 똑똑한 사람들 (Nassim Taleb)이 지적했듯이, 사람들이 분산을 확산으로 생각할 때 MAD라고 가정합니다.

분산은 구성원이 평균에서 얼마나 떨어져 있는지에 대한 설명이며, 동일한 거리로 각 관측치의 중요성을 판단합니다. 이것은 멀리있는 관측이 더 중요하게 판단됨을 의미합니다. 따라서 사각형.

연속적인 균일 변수의 분산이 가장 이해하기 쉽다고 생각합니다. 각 관측치에는 사각형이 그려 질 수 있습니다. 이 사각형을 쌓으면 피라미드가 만들어집니다. 피라미드를 반으로 자르면 무게의 절반이 한쪽에 있고 절반이 다른쪽에 있습니다. 자른면이 분산입니다.


2
이 답변이 왜 더 많이지지되지 않았는지 모르겠습니다. 두 번째 단락의 요점은 분산을 이해하고 MAD와 차별화하는 데 중요합니다. 올바르게 지적한 것처럼 사람들이 "확산 측정"에 대해 말했을 때 직관적으로 생각하는 것입니다. 그리고 평범한 점을 수학적으로 이해하지 못하더라도 평균으로부터 점의 거리에 주어진 무게가 선형으로 증가하지 않는다는 생각을 이해하는 것은 평신도를 넘어서는 것이 아닙니다.
jeremy radcliff

3
"MAD"= 궁금한 사람들을위한 en.wikipedia.org/wiki/Median_absolute_deviation . 나는 그런 약어가 이와 같은 질문에 대한 지식으로 간주되어야한다고 생각하지 않습니다.

5

어쩌면 이것이 도움이 될 수 있습니다. 나는 완전한 아마추어로서 이것이 잘못 될 수 있다고 미리 사과드립니다.

1000 명이 젤리 빈으로 가득 찬 항아리에 몇 개의 콩이 있는지 정확하게 추측하도록 요청한다고 상상해보십시오. 이제 정답을 아는 데 관심이있는 것은 아니지만 (일부 사용 가능할 수도 있음) 사람들이 답을 어떻게 평가하는지 더 잘 이해하고 싶다고 상상해보십시오.

다른 답변의 확산 ​​(최고에서 최하로)으로 평신도에게 차이를 설명 할 수 있습니다. 충분한 사람들이 의문을 품었다면 정답은 주어진 '게스트 추정'이 퍼지는 가운데 어딘가에 있어야한다고 덧붙일 수 있습니다.

나는 이제 더 존경받는 동료들 중 일부를 언급하여 심판을 받는다.


5

나는 분산을 이해하려고 노력하고 있었고 마침내 나를 위해 클릭하여 만든 것은 그래픽으로 보는 것이 었습니다.

네 점, -7, -1, 1 및 7로 숫자 선을 그려 봅시다. 이제 Y 치수를 따라 같은 네 점으로 가상의 Y 축을 그리고 XY 쌍을 사용하여 각 쌍의 정사각형을 그립니다. 포인트 각각 49, 1, 1 및 49 개의 작은 사각형으로 구성된 네 개의 개별 사각형으로 감습니다. 그들 각각은 전체 제곱의 합에 기여하는데, 그 자체는 전체적으로 100 개의 작은 제곱을 갖는 큰 10 x 10 제곱으로 표현 될 수 있습니다.

분산은 더 큰 정사각형에 기여하는 평균 정사각형의 크기입니다. 49 + 1 + 49 + 1 = 100, 100/4 = 25입니다. 따라서 25가 분산입니다. 표준 편차는 해당 평균 제곱의 변 중 하나의 길이 또는 5입니다.

분명히이 비유는 분산 개념의 전체 뉘앙스를 다루지 않습니다. 단순히 n을 사용하는 대신 n-1의 분모를 사용하여 모집단 모수를 추정하는 이유와 같이 설명해야 할 사항이 많이 있습니다. 그러나 분산에 대한 세부적인 이해에 대한 나머지 부분을 이해하기위한 기본 개념으로, 단순히 그 내용을 그려서 크게 도움이되는 것을 있습니다 . 분산이 평균과의 평균 제곱 편차라고 할 때의 의미를 이해하는 데 도움이됩니다. 또한 SD가 그 평균과 어떤 관계를 갖는지 이해하는 데 도움이됩니다.


1
Cross-Validated에 오신 것을 환영합니다! 접근 방식이 마음에 들지만 점이 '주변'0 (즉, 평균이 0 임)으로 분산되어 있고 거기에있는 "아톰"을 기준으로 스프레드를 측정하고 있음을 강조하는 것이 훨씬 도움이 될 수 있습니다. (+1) 더 많은 답변을 기다리겠습니다.
매트 크라우스

4

표준 편차와 분산에 대해 평신도를 가르치는 연습을 많이하십시오.

TL; DR; 평균에서 평균 거리와 같은 것입니다. (이 간결한 버전에서는 약간 혼란스럽고 오해의 소지가 있습니다. 전체 기사를 읽으십시오)

평신도가 평균에 대해 알고 있다고 가정합니다. SD를 알고 오류를 추정한다는 중요성에 대해 이야기합니다 (아래 PS 참조). 그런 다음 나는 높은 수학이나 성스러운 통계 지식이 사용되지 않을 것이라고 약속합니다. 단지 건전한 추론과 순수한 논리입니다.

  1. 문제입니다. 온도계가 있다고 가정 해 봅시다 (청각에 더 가까운 것에 따라 측정 장치를 선택합니다).

    우리는 같은 온도와 온도계의 N 측정을 수행하여 36.5, 35.9, 37.0, 36.6, ...과 같은 것을 보여주었습니다 (그림 참조). 우리는 실제 온도는 같지만 온도계는 우리에게 약간의 측정을합니다.

    이 작은 쓰레기가 얼마나 우리에게 있는지 어떻게 알 수 있습니까?

    평균을 계산할 수 있습니다 (아래 그림의 빨간색 선 참조). 우리는 그것을 믿을 수 있습니까? 평균화 한 후에도 우리의 요구에 충분한 정밀도가 있습니까?

    온도계 값과 평균

  2. 가장 쉬운 방법 입니다. 우리는 가장 먼 지점을 취하고 그 지점 과 평균 (빨간 선) 사이 의 거리 를 계산할 수 있는데 , 이것이 우리가 보는 최대 오차이기 때문에 온도계가 우리에게 어떻게 놓여 있는 가라고 말합니다. 추측 할 수있는 것은 최선의 추정치가 아닙니다. 그림을 보면 대부분의 점이 평균 주위에 있습니다. 어떻게 한 점씩 결정할 수 있습니까? 실제로 그러한 추정이 거칠고 일반적으로 나쁜 번호 매기기 이유를 연습 할 수 있습니다.

  3. 차이 . 그럼 ... 모든 거리를 가지고 평균 거리를 계산 하자 !

    (엑스나는엑스¯)엑스¯엑스나는

    그런 다음 평균 거리의 공식이 모든 것을 합산하고 N으로 나눌 것이라고 상상할 수 있습니다.

    (엑스나는엑스¯)

    그러나 문제가 있습니다. 예를 들어 쉽게 볼 수 있습니다. 36.4와 36.8은 36.6과 같은 거리에 있습니다. 그러나 위의 수식에 값을 넣으면 -0.2와 +0.2가되고 합은 0과 같으며 원하는 것은 아닙니다.

    표지판을 없애는 방법? (이 시점에서 평신도들은 "절대적인 가치를 얻는다"라고 말하고, "절대적인 가치를 취하는 것은 약간 인공적인 것이며, 또 다른 방법은 무엇입니까?" 우리는 가치를 제곱 할 수 있습니다! 그런 다음 공식은 다음과 같습니다.

    (엑스나는엑스¯)2

    이 공식을 통계에서 "Variance"라고합니다. 또한 최대 거리를 측정하는 것보다 온도계 (또는 기타) 값의 산포를 추정하는 것이 훨씬 더 적합합니다.

  4. °2°에프2

    (엑스나는엑스¯)2

    σ

이 시점에서 평신도는 우리가 여기에 도착하는 방법과 표준 편차 / 분산이 어떻게 작동하는지 매우 명확하게 이해합니다. 이 시점에서 나는 보통 샘플링과 모집단, 표준 오차 대 표준 편차 항 등에 대해 설명하는 68–95–99.7 규칙으로 간다.

SD 토크 예를 아는 것의 PS 중요성 :

1 000 $의 측정 장치가 있다고 가정 해 봅시다 . 그리고 그것은 당신에게 답을줍니다 : 42. 당신은 42에 대해 1 만 달러 를 지불했다고 생각 합니까? 푸이! 한 사람은 그 대답의 정확성으로 1000 000을 지불했습니다. Value-오류를 몰라도 비용이 들지 않기 때문입니다. 값이 아닌 오류에 대해 비용을 지불합니다. 여기 좋은 삶의 예가 있습니다.

일상 생활에서 우리는 대부분 거리를 측정하기 위해 통치자를 사용합니다. 눈금자는 1 밀리미터 정도의 정밀도를 제공합니다 (미국에 있지 않은 경우). 밀리미터를 넘어 0.1mm 정밀도로 무언가를 측정해야하는 경우 어떻게해야합니까? -아마도 캘리퍼를 사용했을 것입니다. 이제 가장 저렴한 눈금자 (여전히 밀리미터 정밀도)는 센트로, 좋은 캘리퍼는 10 분의 1의 비용이 드는지 쉽게 확인할 수 있습니다. 1 배의 정밀도를위한 2 배의 가격. 그리고 그것은 당신이 오류에 대해 지불하는 금액의 매우 일반적인 것입니다.


2

분산과 표준 편차를 모두 설명 할 때 사용할 핵심 문구는 "확산 측정" 이라고 생각합니다 . 가장 기본적인 언어에서 분산과 표준 편차는 데이터가 얼마나 잘 퍼져 있는지 알려줍니다. 좀 더 정확하기 위해 평신도를 다루지 만 데이터가 평균에 얼마나 잘 퍼져 있는지 알려줍니다. 통과 할 때 평균은 "위치 측정" 입니다. 일반인에게 설명을 마치기 위해서는 표준 편차가 작업하는 데이터와 동일한 단위로 표현되며이 때문에 분산의 제곱근을 취하는 것이 강조되어야합니다. 즉, 두 사람이 연결되어 있습니다.

나는 간단한 설명이 트릭을 할 것이라고 생각합니다. 어쨌든 소개 교과서 설명과 다소 비슷할 것입니다.


0

분포의 분산은 분포 의 평균과 각 질량이 1 인 축의 관성 모멘트 로 간주됩니다.이 직관은 추상적 개념을 구체적으로 만들 것입니다.

첫 번째 모멘트는 분포의 평균이고 두 번째 모멘트는 분산입니다.

참조 : 첫 번째 확률 코스 8 판


-2

나는 그것을 전체 평균과 평균 양의 차이라고 부릅니다.


1
당신이 의미하는 "평균" 의 가지 종류 를 명확히 할 때까지 (첫 번째는 평균이고 두 번째는 산술 평균입니다), 당신의 진술이 그것을 부정확하게 만드는 방식으로 해석 될 것이 거의 확실합니다. 또한 "양의 차이"라는 용어는 이상하고 모호합니다. 긍정적 인 잔차 만 고려한다는 의미입니까? 또는 잔차의 절대 값을 취하기 위해? 또는 다른 것? 2
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.