이 데이터 집합에 공분산이없는 이유는 무엇입니까?


8

공분산의 작동 방식에 대한 이해는 상관 관계가있는 데이터의 공분산이 다소 높아야한다는 것입니다. 산점도에 표시된 것처럼 데이터가 상관 관계가 있지만 공분산이 거의 0에 가까운 상황을 겪었습니다. 상관 관계가있는 데이터의 공분산은 어떻게 0이 될 수 있습니까?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

여기에 이미지 설명을 입력하십시오


4
힌트 : 상관 관계를 보면 어떻게됩니까? 공분산과 상관 관계의 차이점은 무엇입니까?
aleshing

2
특정 스케일에서 작거나 가깝게 나타나는 숫자를 측정하는 경우 그 차이도 작게 보이고 차이의 곱은 훨씬 작아 보입니다. 모든 데이터에 곱한 다음 계산을 다시 시도하십시오 . 공분산은 배가 되어야합니다.10001000000
Henry

답변:


14

공분산의 크기는 데이터의 크기와 해당 데이터 포인트가 해당 데이터의 평균 주위에 얼마나 흩어져 있는지에 따라 다릅니다. 수식을 볼 때 쉽게 볼 수 있습니다.

covx,y=(xix¯)(yiy¯)n1

귀하의 경우,의 일탈 x1x2의 평균 데이터 점 x1하고 x2있습니다 :

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

이제이 두 벡터를 서로 곱하면 분명히 작은 숫자를 얻습니다.

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

이제 합을 취하고 나눕니다 . 공분산이 있습니다.n1

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

그것이 공분산의 크기가 방법 x1x2공존의 강도에 대해 많은 것을 말하지 않는 이유 입니다. 공분산을 표준화 (또는 정규화)하여 표준 편차의 곱 x1x2(공분산과 매우 유사한) 곱으로 나눕니다 2.609127e-05.

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

의 높은 상관 계수를 얻으면 플롯에서 볼 수있는 것을 확인할 수 있습니다.r=0.99


7

줄거리에서 한 눈에 볼 수있는 것과 합리성 검사에 대해 이야기 해 봅시다 (이것은 데이터를 볼 때 당연히 몇 가지 기본 사실로 무장하여 수행 할 수있는 일입니다).

그러나 첫번째하자 노트는 것을 표준 편차의 -denominator 버전은 절반 범위합니다 (초과 할 수 없습니다 수 있지만 많은에 의해 몇 가지 관찰보다 더와 분모 버전).nn1

두 변수의 범위는 0.02 정도 (거의)이므로 분산은 약 절반, 제곱 또는 약 이하 여야합니다 .104

결과적으로 산출물에서 분산의 관측 값이 의미가 있습니다. 그것들은 그것보다 작지만 10 분의 1 이상입니다.

공분산의 절대 값은 두 분산의 기하 평균보다 크지 않아야합니다 (그렇지 않으면 상관 관계가 1을 초과 할 수 있음). 따라서 공분산의 절대 값은 범위 곱의 를 초과하지 않아야 합니다.14

따라서 두 변수의 범위가 모두 가까우 면 절대 공분산이 를 초과 할 것으로 기대할 수 없었 습니다 .0.02(0.02)2/4=104

매우 거친 분석에서 놀라운 것은 없습니다.

더 정확한 범위를 사용하여 계산을 수행 한 다음 한계 분포의 모양을 생각하면보다 정확한 분석이 가능
합니다. 범위는 각각 및 미만 이므로 공분산은 초과해서는 안됩니다 그러나 한계 분포는 거의 대칭적인 2 점 분포가 아니기 때문에 그보다 약간 작아야합니다.0.0230.0158.6×105

우리는 그들이 지금까지 균일에서하지 않은 말한다면 참으로, 공분산은 오히려 1/4보다 1/12 가까운 어떤 제품에 의해 제한 될 것 - 즉 그 범위가 거의 균일 한 variates 위해 적은 약이 될 것입니다 -상관 관계가 높기 때문에 훨씬 적습니다. [이 변종은 균일하지 않으며 기울어졌습니다. 그러나 현재의 목적에 충분히 가깝습니다.]2.9×105

따라서 각 변수의 범위와 플롯의 한계 분포 및 상관 관계에 대한 거친 의미를 살펴보면 공분산이 보다 약간 작을 것으로 예상 됩니다. 실제로 약 입니다.2.9×1052.6×105

(두 개의 유효 숫자 범위에서 시작하여 빠른 백 오브 백 계산에 대해서는 그리 나쁘지 않습니다!)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.