상관과 공분산의 차이점을 어떻게 설명 하시겠습니까?

109

이 질문에 이어 평균 만 이해하는 사람에게 공분산을 어떻게 설명 하시겠습니까? 평신도에 대한 공분산을 설명하는 문제를 다루는 비슷한 생각을하게되었습니다.

공분산 과 상관 관계 의 차이를 통계적으로 네오 피트로 설명 할 수 있을까요? 둘 다 다른 변수에 다시 연결된 하나의 변수의 변경을 나타냅니다.

언급 된 질문과 마찬가지로 수식이 부족한 것이 좋습니다.

correlation covariance

— pmgjones
소스

109

공분산의 문제점은 비교하기 어렵다는 것입니다. 높이와 무게 세트의 공분산을 (각각) 미터와 킬로그램으로 표현할 때 다른 단위로 수행 할 때와 다른 공분산을 얻습니다. 미터 시스템을 사용하거나 사용하지 않고 동일한 작업을 수행하는 사람들에게는 이미 문제가 있습니다!) 또한 (예를 들어) 키와 몸무게보다 '코 브리 더 많은'것인지 여부를 말하기가 어렵습니다. 공분산이 계산되는 '척도'가 다르기 때문입니다.

이에 대한 해결책은 공분산을 '정규화'하는 것입니다. 공분산을 공분산 모두에서 다양성과 척도를 나타내는 것으로 나누고 -1에서 1 사이의 값이되도록합니다. 원래 변수의 단위가 무엇이든, 항상 동일한 결과를 얻을 수 있으며,이를 통해 두 변수가 단순히 상관 관계를 비교하여 두 변수보다 더 많은 상관 관계가 있는지 비교할 수 있습니다.

참고 : 위의 내용은 독자가 이미 공분산 개념을 이해하고 있다고 가정합니다.

— 닉 사브
소스

2

+1 마지막 문장에서 "공분산"대신 "상관"을 쓰려고 했습니까?

— whuber

공분산을 다른 단위와 비교할 수 없습니까? 단위는 공분산을 곱하여 곱합니다. X가에 cm있고 Y가에 s있으면 입니다. 그런 다음 결과에 단위 변환 계수를 곱하면됩니다. R에서 시도하십시오 :

c o v (X, Y) = z c m \cdot s

$cov(X,Y)=z\ cm\cdot s$ cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

— naught101

3

@ naught101 나는 요점은 이라고 말하면 가 매우 예측 하는지 아닌지에 대한 단서가 없을 것입니다. 당신이 그에게 당신은 좀 더 해석 뭔가있을 것입니다.

Cov (X, Y) = 10^{1} 0

$\mbox{Cov}(X, Y) = 10^10$

X

$X$

Y

$Y$

Cor (X, Y) = .9

$\mbox{Cor}(X, Y) = .9$

— guy

@guy : 그건 공분산 것 없이 단위 : PI는 중요한 것은 당신이 쉽게 다른 차이가 두 데이터 세트에서 공분산을 비교할 수 없다고 생각합니다. 예를 들어, 관계가 B = 2 * A이고 두 데이터 집합 {A1, B1} 및 {A2, B2}가있는 경우 A1의 분산은 0.5이고 A2의 분산은 2이며 는 관계가 정확히 동일하더라도 보다 훨씬 큽니다 .

c o v (A 2, B 2)

$cov(A2, B2)$

c o v (A 1, B 1)

$cov(A1, B1)$

— naught101

3

간단한 용어로 코 릴레이션> 공분산

— Karl Morrison

58

이러한 유형의 질문에 대한 요구 사항은 약간 기괴한 것으로 보입니다. 여기에 수학적 개념 / 수식이 있지만, 수학적 기호가 전혀없는 일부 상황에서 그것에 대해 이야기하고 싶습니다. 또한 공식을 이해하는 데 필요한 실제 대수학은 고등 교육 전에 대부분의 개인에게 가르쳐야한다고 생각해야한다고 생각합니다 (매트릭스 대수에 대한 이해가 필요하지 않고 단순한 대수만으로 충분합니다).

따라서 처음에는 공식을 완전히 무시하고 마술적이고 휴리스틱 유형의 유추에서 말하는 대신 공식을보고 개별 구성 요소를 작은 단계로 설명해 보겠습니다. 공식을 볼 때 공분산과 상관 관계의 차이가 분명 해져야합니다. 유추와 휴리스틱 측면에서 말하면, 나는 비교적 간단한 두 가지 개념과 많은 상황에서의 차이점을 모호하게 생각합니다.

샘플 공분산에 대한 공식으로 시작 하겠습니다 (위의 Wikipedia에서 가져와 채택했습니다).

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

모든 사람의 속도를 높이려면 수식의 모든 요소와 연산을 명시 적으로 정의하십시오.

$x_i$ 및 는 각각 동일한 관측치의 두 가지 별도 특성의 측정치입니다. $y_i$
$\bar{x}$ 및 는 각 속성의 평균 (또는 평균)입니다. $\bar{y}$
를 들어 , 바로 이것이 우리가에 의해 최종 결과를 나누는 것을 의미 말할 수 . $\frac{1}{n-1}$ ${n-1}$
$\sum_{i=1}^{n}$ 은 일부 외국 기호 일 수 있으므로이 작업을 설명하는 것이 유용 할 것입니다. 그것은 단순히 모든 합 관찰 분리해서, 그리고 관찰의 수를 나타낸다. $i$ $n$

이 시점에서 나는 간단한 예를 소개하여 요소와 작업에 대해 이야기합니다. 예를 들어, 각 행이 관측치에 해당하는 테이블을 구성하면됩니다 (그리고 와 는 적절하게 레이블이 지정되어 있습니다). 이 예들을 좀 더 구체적으로 만들 수있을 것입니다 (예 : 는 연령을 나타내고 는 체중을 나타냅니다). $x$ $y$ $x$ $y$

이 시점에서 수식의 합계 연산이 완전히 이해되지 않았다고 생각되면 훨씬 간단한 컨텍스트에서 다시 계산할 수 있습니다. 다만 본 것을 말해 본 실시 예에서 말하는 것과 동일하다; $\sum_{i=1}^{n}(x_i)$

이제 엉망이 해결되고 수식의 두 번째 부분 인 있습니다. 이제 사람들이 및 의 의미를 이미 알고 있다고 가정 하면 게시물의 앞부분에서 내 자신의 의견에 위선적이라고 말하면 평균의 의미를 간단한 휴리스틱 (예 : 배포의 중간). 그런 다음이 프로세스를 한 번에 한 작업 씩 수행 할 수 있습니다. 명령문 $(x_i-\bar{x})(y_i-\bar{y})$ $\bar{x}$ $\bar{y}$ $(x_i-\bar{x})$ 각 관측치 사이의 편차 / 거리와 특정 속성에 대한 모든 관측치의 평균을 조사하는 것입니다. 따라서 관측치가 평균에서 더 멀면이 연산에 더 높은 값이 부여됩니다. 그런 다음 주어진 예제 표를 다시 참조 하여 관측치 의 벡터 에 대한 연산을 간단히 보여줄 수 있습니다 . $x$

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

작업은 벡터의 경우와 동일 하지만 강화를 위해서만 해당 작업을 제시 할 수 있습니다. $y$

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

이제 및 라는 용어 는 모호하지 않아야하며 다음 결과를 곱하여 다음 작업으로 수 있습니다 . gung이 주석에서 지적한 것처럼 이것을 종종 교차 곱이라고합니다 (통계를 위해 기본 행렬 대수를 도입 한 경우 다시 가져 오는 유용한 예일 수 있음). $(x_i-\bar{x})$ $(y_i-\bar{y})$ $(x_i-\bar{x})\cdot(y_i-\bar{y})$

곱할 때 어떤 일이 발생하는지 유의하십시오. 두 관측치가 모두 평균보다 먼 거리에 있으면 결과 관측치의 양수 값이 더 큽니다 (두 관측치가 평균 이하로 먼 거리에 두 음수를 곱한 경우에도 마찬가지 임) 긍정적 임). 또한 하나의 관측치가 평균보다 높고 다른 관측치가 평균보다 훨씬 낮 으면 결과 값이 커지고 (절대 용어로) 음수 (양수는 음수가 음수와 같음)입니다. 마지막으로 값이 두 관측치의 평균에 매우 가까운 경우 두 값을 곱하면 숫자가 작아집니다. 다시이 작업을 테이블에 표시 할 수 있습니다.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

이제 방에 통계학자가 있다면이 시점에서 예상과 함께 끓여야합니다. 공분산의 정의와 계산 방법에 대한 모든 개별 요소를 볼 수 있습니다. 이제 우리가해야 할 일은 이전 표의 최종 결과를 요약하고 과 voila로 나누는 것입니다 . 공분산은 더 이상 신비 롭지 않아야합니다 (모두 그리스어 기호 만 정의하면 됨). $n-1$

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

이 시점에서 5가 나오는 곳을 보강하고 싶을 수도 있지만, 표를 다시 참조하고 관측 횟수를 세는 것만 큼 간단해야합니다 (샘플과 모집단의 차이를 다른 시간으로 다시 남겨 두십시오).

이제 공분산 자체가 우리에게 많은 것을 말하지는 않습니다 (할 수는 있지만,이 시점에서 관객에 대한 마술적이고 정의되지 않은 언급에 의지하지 않고 흥미로운 예제로 들어가는 것은 불필요합니다). 좋은 시나리오에서는 공분산이 무엇인지 관심을 가져야하는 이유를 실제로 판매 할 필요가 없습니다. 다른 상황에서는 청중이 포로가되어이를 받아들이기를 바랍니다. 그러나 공분산이 무엇인지와 상관이 무엇인지에 대한 차이점을 계속해서 발전 시키려면 상관 관계 공식을 다시 참조하면됩니다. 그리스어 기호 공포증을 방지하기 위해 는 상관 관계를 나타내는 데 사용되는 일반적인 기호 라고 할 수 있습니다. $\rho$

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

다시 말하지만, 앞의 공식의 분자는 우리가 방금 정의한 공분산이고 분모는 각 개별 계열 의 분산 의 곱의 제곱근입니다 . 분산 자체를 정의해야하는 경우 분산이 자체와 계열의 공분산과 동일하다고 말할 수 있습니다 (예 : ). 공분산으로 도입 한 것과 동일한 개념이 모두 적용됩니다 (즉, 계열의 평균과 거리가 먼 값이 많은 경우 분산이 높습니다). 어쩌면 여기서 시리즈는 마이너스 분산을 가질 수 없습니다 (이전에 제시된 수학에서 논리적으로 따라야 함). $Cov(x,x) = Var(x)$

우리가 소개 한 유일한 새로운 구성 요소는 분모 입니다. 우리는 방금 계산 한 공분산을 각 계열의 분산의 곱으로 나눕니다. 왜 나누는 것이 항상 -1과 1 사이의 값을 초래 하는지에 대한 치료에 들어갈 수 있지만, Cauchy-Schwarz 불평등은 의제에서 제외되어야한다고 생각합니다 이 토론. 다시 한 번, 나는 위선자이며 일부에 의지하고, 그것에 대한 나의 말을 받아들이지 만,이 시점에서 우리가 상관 계수를 사용하는 모든 이유를 소개 할 수 있습니다. 그런 다음 이러한 수학 수업을 Peter Flom의 응답 과 같은 다른 설명에서 제공된 휴리스틱과 다시 연결할 수 있습니다. $Var(x)Var(y)$ $\sqrt{Var(x)Var(y)}$ 다른 질문 중 하나에. 이것은 인과 적 진술로 개념을 도입하기 위해 비판을 받았지만, 그 교훈은 어느 시점에서 의제에 있어야합니다.

일부 상황에서는이 수준의 치료가 적절하지 않다는 것을 이해합니다. 상원 의원은 행정상 개요를 필요로한다 . 이 경우 사람들이 다른 예제에서 사용했던 간단한 휴리스틱을 다시 참조 할 수 있지만 로마는 하루 만에 지어지지 않았습니다. 그리고 행정상 요약을 요구하는 상원 의원에게, 만약 당신이 너무 적은 시간을 가지고 있다면 아마도 당신은 그것에 대한 나의 말을 취하고 유추와 총알의 형식을 배제해야 할 것입니다.

— 앤디여
소스

4

나는 질문이 어떻게 든이 포럼의 목적을 벗어난 것이라는 개념과 완전히 동의한다. 공분산의 정의는 로 가장 명확합니다. 하나는 제안 할 수 있습니다. 기대라는 개념 만 사용합니다. 공식을 피하면 반드시 불완전하고 오해의 소지가있는 버전이됩니다. 그리고 이것은 새로운 상황에서 공분산 / 상관을 계산할 수있는 사람을 독자에게 제공 할 수 없습니다. 무수히 싸우는 가장 좋은 방법은 아닙니다.

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$

— 시안

14

+1, 이것은 꽤 좋습니다. 그러나 나는 개념적인 도입에 그렇게 비판적이지 않을 것이다. 나는 수식을 보여주는 것이 그들을 잃을 가능성이 충분한 수학 불안을 가진 사람들과 함께 일했습니다. 나는 보통 직감으로 속도를 높이고 그 후에 수학을 간단하고 철저하게 (여러분이하는 것처럼) 밟습니다 . 그렇게하면, 그들은 수학이 이미 알고있는 것을 어떻게 표현하는지 배우는 것입니다. 그리고 정신적으로 빠져 나가더라도 여전히 큰 아이디어를 배웠습니다. 접선 점으로 Excel에서 수학을 통해 작업 하므로이 작업에 매우 유용합니다.

— gung

2

nitpicks의 커플 (죄송) : 최상위 방정식에서, 당신은에 의해 분할 ,하지만 (제대로)로 나누어 논의 관련 글 머리에; 그주의 수도 은 "외적"라고합니다; 샘플 공분산 에 대해 이야기 했으므로 상관 관계를 얻을 때 에 대한 내용을 건너 뛰고 사용할 수 있습니다 . 마지막으로, 상관은 분산이 아닌 SD에 대해 스케일링하여 공분산으로부터 계산 됩니다 (예 : 여기 참조) .

N

$N$

N - 1

$N-1$

(x_{i} - \bar{x}) (y_{i} - \bar{y})

$(x_i-\bar{x})(y_i-\bar{y})$

ρ

$\rho$

r

$r$

— gung

@gung 덕분에 첫 번째 수식에서 오타를 변경 한 다음 상관 관계에 대해 (표준 편차를 정의하는 대신) 곱한 분산의 제곱근을 취했습니다. rho 대 다른 기호를 사용하면 너무 강하게 느끼지 않습니다. 제가 가르치고 있고 교과서를 가지고 있다면, 나는 단지 그 본문을 따르기를 원할 것입니다. 바라건대 하나의 그리스 상징이 혼돈을 일으키지 않습니다!

— Andy W

1

내가 당신의 대답을 100 번 찬성 할 수 있다면 참으로 명쾌한 설명입니다!

— Julian A.

10

상관 (r)은 변수 (x & y)의 공분산 (cov)을 각 표준 편차 ( )로 나눈 값으로 나눈 값 입니다. $\sqrt{Var[x]Var[y]}$

즉, 상관은 단순히 공분산의 표현이므로 결과는 -1 (완전히 역 상관)과 +1 (완전히 양으로 상관) 사이에 있어야하며, 0에 가까운 값은 두 변수가 서로 관련이 없음을 의미합니다.

공분산은 제한이 없으며 다른 공분산과 비교할 때 컨텍스트가 없습니다. 공분산을 정규화 / 조정 / 표준화하여 상관 관계를 분석함으로써 데이터 세트를보다 쉽게 비교할 수 있습니다.

상상할 수 있듯이 통계 (공분산 등)를 정규화 / 표준화하는 방법에는 여러 가지가 있습니다. 상관 관계와 공분산 사이의 관계에 대한 수학적 공식은 단순히 통계학자가 사용하는 표준 통계 (표준 편차에 따라 조정)를 반영합니다.

r = \frac{c o v (x, y)}{\sqrt{V a r [x] V a r [y]}}

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

— 디 도그
소스

5

중심을 맞추고 표준화하는 아이디어에 익숙하다면 x-xbar는 x를 중심으로하는 것입니다. y에도 동일하게 적용됩니다. 따라서 공분산은 단순히 데이터를 중심에 둡니다. 그러나 상관 관계는 데이터를 중앙에 배치 할뿐만 아니라 표준 편차 (표준화)를 사용하여 확장합니다. 곱셈과 합산은 두 벡터의 내적이며이 두 벡터가 서로 어떻게 평행하는지 (한 벡터가 다른 벡터에 투영 된 것)를 알려줍니다. (n-1)의 나눗셈 또는 예상 값의 취합은 관측치의 수에 비례합니다. 생각?

— 사용자 31180
소스

3

내가 이해하는 한. 상관 관계는 공분산의 "정규화 된"버전입니다.

— 칼 모리슨
소스

2

많은 게시물이 증명 하듯이 "정규화"에는 여러 가지 의미가 있습니다. 어느 것을 사용하고 있습니까?

— whuber

-3

상관 관계는 양의 상관 관계가 있는지 또는 음의 상관 관계가 있는지에 따라 -1과 +1 사이로 조정되며 크기가 없습니다. 그러나 공분산의 범위는 두 개의 독립 변수 인 경우 0에서 두 데이터 세트가 동일한 경우 Var (X)까지입니다. COV (X, Y)의 단위는 X의 Y에 Y를 곱한 단위입니다.

— 나가 라즈
소스

6

공분산은 음수 일 수 있으므로 0으로 제한되지 않습니다. 또한 마지막 문장 The units of COV(X,Y) are the units of X times the units of Y.,, 세심한주의가 무엇을 의미하는지 명확하지 않습니까?

— 앤디 W

@AndyW 단위가 정의에서 명확하지 않습니까? . 기대 연산자는 X / Y 값의 가중 평균 일 뿐이며 단위는 통과합니다.

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\operatorname{Cov}(X,Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

— naught101

1

@ naught101, 단위는 통과? 나가 라즈에 대한 나의 초기 의견은 내가 주장 할 말과 같은 모호한 진술이 누구에게도 도움이되지 않기 때문에 더 명확하게 제시하는 것이었다. 따라서 공분산을 "x의 단위에 y의 단위를 곱한 값"으로 해석 할 수없는 이유는 무엇입니까? 표본 공분산에 대해 잠재적으로 더 정확한 설명은 " 평균 편차 의 곱 평균 "입니다. 계속 ...

— Andy W

1

이제 평균 편차는 원래 단위와 확실히 같지 않으며 공분산에 대한 결과 통계는 단순히 원래 속성의 평균과 분산에 의존하지 않습니다. 공분산 자체는 원래 속성의 분산을 모른 채 아무 것도 알려주지 않습니다.

— Andy W