평균 만 이해하는 사람에게 공분산을 어떻게 설명 하시겠습니까?


207

... 나는 직관적 인 방식으로 ( "직관적으로"를 이해 하는) 직관적 인 방식으로 분산에 대한 지식을 보강 할 수 있다고 가정합니다 . '평균'에서 데이터 값의 평균 거리입니다. 단위를 동일하게 유지하기 위해 제곱근을 취합니다.이를 표준 편차라고합니다.

이것이 '수신자'에 의해 분명히 표현되고 (희망적으로) 이해된다고 가정 해 봅시다. 이제 공분산이란 무엇이며 수학 용어 / 수식을 사용하지 않고 간단한 영어로 어떻게 설명합니까? (즉, 직관적 인 설명입니다.;)

참고 : 나는 개념 뒤에 숨겨진 공식과 수학을 알고 있습니다. 나는 수학을 포함하지 않고 이해하기 쉬운 방식으로 동일하게 '설명'할 수 있기를 원합니다. 즉, '공분산'이란 무엇을 의미합니까?


1
@ Xi'an- '어떻게' 간단한 선형 회귀를 통해 정확하게 정의 하겠습니까? 정말 알고 싶습니다…
PhD

3
원점이 (0,0) 인 두 변수 x y 의 산점도가 이미 있다고 가정하면 x = mean (x) (수직)과 y = mean (x) (수평)에 두 개의 선을 그리면됩니다. 이 새로운 좌표계 (원점은 (mean (x), mean (y)에 있음))를 사용하여 오른쪽 상단 및 왼쪽 하단 사분면에 "+"기호를, 다른 두 사분면에 "-"기호를 넣습니다. 공분산의 표시를 얻었습니다. 이것은 기본적으로 @Peter가 말한 것 입니다 .x 및 y 단위의 크기를 조정하면 (SD에 의해) 다음 스레드 에서 논의 된 바와 같이 더 해석 가능한 요약으로 이어 집니다.
chl

@chl-답변으로 게시하고 그래픽을 사용하여 묘사 할 수 있습니까?
PhD

이 웹 사이트에서 추상적 인 설명보다 이미지를 선호 할 때 도움이되는 비디오를 찾았습니다. 비디오가있는 웹 사이트 구체적으로이 이미지 : ! [여기에 이미지 설명을 입력 해주세요 ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

답변:


374

때때로 우리는 비정상적이거나 다른 접근 방식으로 "지식을 보강"할 수 있습니다. 나는이 답장이 유치원생들에게 접근 가능하고 재미있게 보내길 바랍니다. 그래서 모두 크레용을 꺼내십시오!

쌍을 이룬 데이터가 주어지면 산점도를 그립니다. (더 어린 학생들은이를 위해 교사가 필요할 수도 있습니다. :-) 해당 플롯의 각 점 쌍 , 는 사각형을 결정합니다. 해당 점을 포함하는 축. 따라서 점은 오른쪽 위와 왼쪽 아래 모서리 ( "양성"관계)에 있거나 왼쪽 위와 오른쪽 아래 모서리 ( "음수"관계)에 있습니다.(x,y)(xi,yi)(xj,yj)

가능한 모든 사각형을 그립니다. 양의 사각형을 빨간색으로 (예 :), 음의 사각형을 "빨간색으로"(파란색)으로 투명하게 색칠하십시오. 이러한 방식으로 사각형이 겹치는 곳마다 색상이 동일하면 (파란색, 파란색 또는 빨간색과 빨간색) 향상되거나 서로 다르면 취소됩니다.

양수 및 음수 사각형

( 양수 (빨간색) 및 음수 (파란색) 사각형의이 그림에서 겹침은 흰색이어야합니다. 불행히도이 소프트웨어는 실제 "빨간색"색상이 아닙니다. 겹침은 회색이므로 어두워집니다. 음모, 그러나 전체적으로 빨간색 금액이 정확합니다. )

이제 공분산에 대한 설명이 준비되었습니다.

공분산은 플롯에서 빨간색의 순량입니다 (파란색을 음수 값으로 처리).

다음은 주어진 공분산을 갖는 분포에서 32 개의 비정규 점을 갖는 몇 가지 예입니다.

공분산 그림, 2019 업데이트

공통 축에 그려져 비교 가능합니다. 사각형은 눈에 잘 띄게 표시되어 있습니다. 이것은 원본의 업데이트 된 (2019) 버전입니다. 겹치는 사각형에서 빨간색과 녹청색을 올바르게 취소하는 소프트웨어를 사용합니다.

공분산의 일부 속성을 추론합시다. 실제로 사각형의 일부를 그린 사람이라면 누구나 이러한 속성을 이해할 수 있습니다. :-)

  • 쌍 선성. 빨강의 양은 도표의 크기에 따라 달라 지므로 공분산은 x 축의 스케일과 y 축의 스케일에 직접 비례합니다.

  • 상관 관계. 공분산은 점이 상향 경 사진 선에 가까울수록 증가하고 점이 하향 경 사진 선에 가까울수록 감소합니다. 전자의 경우 대부분의 사각형이 양수이고 후자의 경우 대부분이 음수이기 때문입니다.

  • 선형 연관과의 관계. 비선형 연관은 양의 사각형과 음의 사각형을 혼합하여 생성 할 수 있기 때문에 예측할 수없고 매우 유용하지 않은 공분산으로 이어집니다. 선형 연관은 앞의 두 특성화를 통해 완전히 해석 될 수 있습니다.

  • 특이 치에 대한 민감도. 기하학적 특이점 (질량에서 떨어진 한 점)은 다른 모든 점과 관련하여 많은 큰 사각형을 만듭니다. 단독으로 전체 그림에서 순 양수 또는 음수의 빨간색을 만들 수 있습니다.

또한,이 공분산 정의는 일반적인 비례 상수 (데이터 세트 크기와 무관)에 의해서만 일반적인 것과 다릅니다. 수학적으로 기울어 진 것은 여기에 주어진 공식이 항상 일반적인 공분산의 두 배라는 대수적 데모를 수행하는 데 아무런 문제가 없습니다.


92
와우 +1 이것은 심지어 그것이 무엇인지 이미 알고 있다고 생각한 사람들에게 공분산을 설명하는 데에도 효과적입니다.
Aaron

7
+1 나는 당신의 응답을 읽는 것을 정말로 좋아합니다. 나는 사각형을 그리고 아들이 그림을 그리도록 할 것이다 :)
chl

18
이제 모든 입문 통계 개념 만 학생들에게이 명쾌한 방법으로 제시 될 수 있다면…
MannyG

4
이것은 아름답다. 그리고 매우 명확합니다.
Benjamin Mako Hill

4
(x¯,y¯)

61

xy

기본 공식을 기억하는 것이 유용합니다 (설명 과정이 간단하고 입문 과정에 대한 수학적 기대에 대해 이야기 할 필요가 없습니다).

cov(x,y)=1ni=1n(xix¯)(yiy¯)

(xi,yi)x¯y¯

y=1.2x+εy=0.1x+εεSD=2x[0,20]

여기에 이미지 설명을 입력하십시오

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy


27

공분산은 다른 변수가 올라갈 때 한 변수가 얼마나 올라가는지를 측정합니다.


1
항상 같은 방향으로되어 있습니까? 또한 역관계에도 적용됩니까 (즉, 하나는 올라가고 다른 하나는 내려갑니다)?
PhD

4
@nupul "up"의 반대는 "down"이고 "positive"의 반대는 "negative"입니다. 한 문장으로 답하려고했습니다. 당신은 훨씬 더 완전합니다. "두 변수가 어떻게 바뀌는가"조차 더 완전하지만 이해하기는 조금 더 어렵다고 생각합니다.
Peter Flom

1
하나의 간단한 문장에 맞추기 위해 +1하지만 그 상관 관계가 아닌가? 나는 더 큰 cov => 더 큰 corr을 알고 있지만, 그 문장으로, "80 %"와 같은 것을 corr = 0.8에 대응하는 것으로 기대할 것입니다. cov도 데이터 내의 분산을 설명하지 않습니까? 즉. "공분산은 다른 변수가 올라갈 때 한 변수가 얼마나 올라가는가에 비례하고, 두 변수의 데이터 확산에 비례합니까?"
naught101

4
맞습니다. Peter는 @ naught101이 그 의견을 밝힌 이유입니다. 설명은 변화율처럼 들리므로 그 단위는 [한 변수의 단위] / [다른 변수의 단위]입니다. ) 또는 [단일 변수의 단위] (순수한 차이로 해석되는 경우)입니다. 공분산 (측정 단위는 두 변수에 대한 단위의 곱)이나 상관 관계 (단위 없음)가 아닙니다.
whuber

1
XY1,YXY

12

내가 하고 내 자신의 질문에 대답,하지만 난이 게시물에 건너 오는 사람들이 설명의 일부 체크 아웃하는 것이 좋을 거라고 생각 이 페이지를 .

나는 매우 잘 표현 된 답변 중 하나 (사용자 'Zhop'에 의한)를 해석하고 있습니다. 누군가가 지금이 게시물에 액세스 할 때 해당 사이트가 종료되거나 페이지가 중단되는 경우를 대비합니다.)

공분산은 두 변수가 함께 얼마나 변하는지를 측정 한 것입니다. 이것을 하나의 측정 (또는 변수)이 변하는 범위에 불과한 분산과 비교하십시오.

사회적 패턴을 연구 할 때, 부유 한 사람들이 더 많은 교육을받을 가능성이 높다는 가정을하게 될 수 있으므로, 부와 교육의 측정이 얼마나 밀접한 관계를 유지하려고하는지 알아볼 것입니다. 공분산 측정을 사용하여이를 결정할 수 있습니다.

...

통계에 어떻게 적용되는지 물을 때 무슨 의미인지 잘 모르겠습니다. 그것은 많은 통계 수업에서 가르치는 하나의 척도입니다. 언제 사용해야합니까?

서로 관련하여 두 개 이상의 변수가 얼마나 많이 변하는 지 알고 싶을 때 사용합니다.

팀원을 생각하십시오. 지리적 위치가 서로 어떻게 다른지 살펴보십시오. 팀이 경기를하거나 연습 할 때, 개별 멤버들 사이의 거리는 매우 작으며 같은 위치에 있다고 말할 것입니다. 그리고 그들의 위치가 변경되면, 그것은 모든 개인 (예를 들어, 버스를 타고 게임으로 여행)을 위해 변경됩니다. 이 상황에서는 공분산 수준이 높다고 말할 수 있습니다. 그러나 이들이 재생되지 않을 때, 공분산 비율은 모두 다른 속도로 다른 장소로 갈 수 있기 때문에 상당히 낮을 것입니다.

따라서 다른 팀 구성원이 매우 정확하게 게임을 연습하거나 플레이 할 때 다른 팀 구성원의 위치를 ​​기반으로 한 팀 구성원의 위치를 ​​예측할 수 있습니다. 공분산 측정은 1에 가깝습니다. 그러나 그들이 연습하거나 놀지 않을 때는 팀원의 위치를 ​​기준으로 한 사람의 위치를 ​​예측할 가능성이 훨씬 적습니다. 때로는 팀원이 친구가되고 자신의 시간에 함께 갈 수 있기 때문에 0이 아닐지라도 0에 가까울 것입니다.

그러나 미국에서 무작위로 개인을 선택하고 그 중 하나를 사용하여 다른 사람의 위치를 ​​예측하려고 시도한 경우 공분산이 0 일 수 있습니다. 다시 말해, 미국에서 무작위로 선택된 사람의 위치와 다른 사람의 위치 사이에는 아무런 관계가 없습니다.

직관을 향상시키는 데 도움이되는 다른 것을 추가하십시오 ( 'CatofGrey'로).

확률 이론과 통계에서 공분산은 두 개의 임의 변수가 얼마나 많이 변하는지를 측정합니다 (단일 변수가 얼마나 변하는지를 측정하는 분산과 구별됨).

두 변수가 함께 변하는 경향이있는 경우 (즉, 변수 중 하나가 예상 값을 초과하면 다른 변수도 예상 값을 초과하는 경향이 있음) 두 변수 사이의 공분산이 양수입니다. 반면에, 그들 중 하나가 예상 값보다 높고 다른 변수가 예상 값보다 낮은 경향이 있다면, 두 변수 사이의 공분산은 음이 될 것입니다.

이 두 가지를 함께 사용하면 이전에 결코 이해하지 못했던 공분산을 이해할 수있었습니다! 단순히 놀라운 !!


15
이러한 설명은 질적으로 암시 적이지만 슬프게도 불완전합니다. 공분산과 상관 관계를 구분하지 않으며 (첫 번째 설명은 두 가지를 혼동하는 것으로 보임) 선형 공변량의 기본 가정을 도출하지도 않습니다 . 또한 공분산이 각 변수의 척도에 선형으로 의존한다는 중요한 측면을 다루지 않습니다.
whuber

@ whuber-동의했습니다! 따라서 내 대답을 답변으로 표시하지 않았습니다 :) (아직
PhD

12

나는 Whuber의 답변을 정말로 좋아하므로 더 많은 자료를 모았습니다. 공분산은 변수가 퍼지는 정도와 관계의 특성을 모두 설명합니다.

공분산은 직사각형을 사용하여 산포도 그래프에서 관측치가 평균에서 얼마나 멀리 떨어져 있는지 설명합니다.

  • 직사각형에 긴 변과 높은 폭 또는 짧은 변과 짧은 폭이 있으면 두 변수가 함께 이동한다는 증거가됩니다.

  • 직사각형에 해당 변수에 대해 상대적으로 긴 두 변과 다른 변수에 비해 상대적으로 짧은 두 변이있는 경우이 관측치는 변수가 서로 잘 이동하지 않는다는 증거를 제공합니다.

  • 사각형이 2 사분면 또는 4 사분면에있는 경우 한 변수가 평균보다 크면 다른 변수가 평균보다 작습니다. 한 변수의 증가는 다른 변수의 감소와 관련이 있습니다.

http://sciguides.com/guides/covariance/ 에서 멋진 시각화를 발견했습니다 . 평균을 아는 경우 공분산이 무엇인지 설명합니다.


7
+1 멋진 설명 (특히 입문 한 문장 요약). 링크가 흥미 롭습니다. Wayback 머신 에 아카이브가 없기 때문에 새로운 것 같습니다. 그것은 내 (3 살짜리) 대답과 매우 유사하기 때문에, 긍정적 인 관계에 대한 빨간색과 파란색의 선택에 이르기 까지이 사이트의 자료에서 파생되지 않은 것으로 생각됩니다.
whuber

4
"멋진 시각화"링크가 죽었습니다 ....
whuber

1
@MSIS 원에 분포가 매우 많기 때문에 알아낼 수 없습니다. 그러나 균일 분포를 언급하는 경우 ( stats.stackexchange.com/q/414365/919 에서 스레드에서 언급을 기억할 ) 상관 계수가 자체 음수 QED와
whuber

1
XX0XX2X1,XX2:11
whuber

1
α,a<αb((ba)mod2π)/(2π).

10

그림과의 공분산을 설명하려는 또 다른 시도가 있습니다. 아래 그림의 모든 패널에는 행 및 열 레이블에 표시된대로 x & y 0.8과 분산 간의 상관 관계를 갖는 이변 량 분포에서 시뮬레이션 된 50 개의 점이 포함되어 있습니다. 공분산은 각 패널의 오른쪽 하단에 표시됩니다.

상관 관계 = 0.8 인 다른 공분산

이 개선에 관심이있는 사람은 ... R 코드는 다음과 같습니다.

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

@whuber의 답변을 좋아했습니다. 공분산을 시각화 할 수있는 방법에 대한 모호한 아이디어가 있기 전에 사각형 플롯은 천재입니다.

그러나 공분산에 대한 수식에는 평균이 포함되어 있으며 OP의 원래 질문에 '수신자'가 평균의 개념을 이해한다고 명시 했으므로 @ whuber의 사각형 플롯을 각 데이터 포인트와 공분산 공식에서 일어나고있는 것을 더 많이 나타 내기 때문에 x와 y의 평균. 나는 그것이 실제로 상당히 직관적으로 보이는 것으로 생각했습니다. "상관이 다른 변수에 대한 공분산 그래프"

각 그림의 중간에있는 파란색 점은 x의 평균 (x_mean)과 y의 평균 (y_mean)입니다.

사각형은 각 데이터 포인트에 대한 x-x_mean 및 y-y_mean 값을 비교합니다.

다음과 같은 경우 사각형이 녹색입니다.

  • x와 y는 각각의 평균보다 크다
  • x와 y는 각각의 평균보다 작습니다.

다음과 같은 경우 사각형이 빨간색입니다.

  • x는 x_mean보다 크지 만 y는 y_mean보다 작습니다.
  • x는 x_mean보다 작지만 y는 y_mean보다 큽니다.

공분산 (및 상관)은 강하게 음수 일 수도 있고 양수일 수도 있습니다. 그래프가 다른 색상보다 한 가지 색상에 의해 지배되는 경우, 데이터는 대부분 일관된 패턴을 따릅니다.

  • 그래프가 빨강보다 녹색이 훨씬 많으면 x가 증가 할 때 일반적으로 y가 증가 함을 의미합니다.
  • 그래프가 녹색보다 빨간색이 훨씬 많으면 x가 증가 할 때 일반적으로 y가 감소 함을 의미합니다.
  • 그래프가 한 색상 또는 다른 색상으로 지배되지 않으면 x와 y가 서로 어떻게 관련되어 있는지에 대한 패턴이 많지 않음을 의미합니다.

두 개의 서로 다른 변수 x와 y에 대한 공분산의 실제 값은 기본적으로 모든 녹색 영역에서 모든 적색 영역을 뺀 다음 총 데이터 포인트 수로 나눈 값입니다. 사실상 그래프의 평균 녹색 vs. 적색 .

그 소리는 어떻게 보입니까?


3

분산은 예상 값과 관련하여 임의의 vairable이 변하는 정도입니다. 확률 변수는 기본 프로세스의 확률 적 특성으로 인해 나타납니다.

공분산은 서로 다른 두 개의 랜덤 변수가 변하는 정도입니다. 이는 랜덤 변수가 동일한 기본 프로세스 또는 그 파생물에 의해 구동 될 때 발생할 수 있습니다. 이러한 임의의 변수로 표시되는 프로세스가 서로 영향을 미치거나 동일한 프로세스이지만 임의의 변수 중 하나가 다른 프로세스에서 파생됩니다.


2

나는 단지 매우 직관적 인 상관 관계를 설명 할 것입니다. "상관 관계는 두 변수 X와 Y 사이의 관계 강도를 측정합니다. 상관 관계는 -1과 1 사이이며 관계가 강한 경우 절대 값에서 1에 가까워집니다. 공분산은 상관 관계에 표준 편차를 곱한 상관 관계입니다. 상관 관계는 차원이 없지만 공분산은 변수 X와 변수 Y의 단위 곱에 있습니다.


10
선형성에 대한 언급이 없기 때문에 이것은 부적절한 것 같습니다. X와 Y는 강한 2 차 관계를 가질 수 있지만 상관 관계는 0입니다.
mark999

0

양의 공분산이 높은 두 가지 변수 (상관)는 방에있는 사람의 수와 방에있는 손가락의 수입니다. (사람 수가 많아 질수록 손가락 수도 늘어날 것으로 예상됩니다.)

음의 공분산 (상관성)을 가질 수있는 것은 사람의 나이와 머리에있는 모낭의 수입니다. 또는 사람의 얼굴에 나타나는 Zits 수 (일부 연령 그룹)와 일주일에 몇 개의 날짜가 있는지. 우리는 더 오랜 세월의 사람들이 머리카락이 적고, 여드름이 많은 사람들은 날짜가 적을 것으로 기대합니다. 이들은 음의 상관 관계가 있습니다.


2
공분산은 상관 관계와 반드시 호환되는 것은 아니며 전자는 매우 단위 의존적입니다. 상관 관계는 공분산 IMO의 '강도'를 나타내는 단위가없는 스칼라 -1과 1 사이의 숫자이며, 그 대답은 명확하지 않습니다
PhD

답은 공분산과 상관 관계를 상호 교환하여 사용할 수 있음을 의미합니다.
sapo_cosmico
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.