X와 XY 랜덤 변수 간의 상관 계수가 0.7 인 이유는 무엇입니까?


49

에서 촬영 의료 연구에 대한 실제 통계 더글러스 알트만은 285 페이지의 글 :

... 두 수량 X와 Y에 대해 X는 XY와 상관됩니다. 실제로, X와 Y가 난수의 표본이더라도 X와 XY의 상관 관계는 0.7이 될 것으로 예상합니다

나는 이것을 R에서 시도했고 그것은 사실 인 것 같다 :

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

왜 그런 겁니까? 이것의 뒤에 이론은 무엇입니까?


어떤 부분에 대한 설명을 원하십니까? x와 y 사이의 알려진 상관 관계와 x와 xy 사이의 공분산으로 인해 발생하는 상관 관계에 대한 단순화 된 방정식을 원하십니까? 아니면 왜 여기에 공분산이 있는지 알고 싶습니까?
John

이 마찬가지입니다 어떤 및 ? 와 가 서로 관련이없고 라고 가정 합니다. 그런 다음 가 와 상관 관계가없는 것 같습니다 . Y X Z Y = X Z XXYXZY=XZXXY
Henry

답변:


69

경우 및 이다 상관 등분 랜덤 변수 , 우리는이 그 결과적으로,Y σ 2 var ( X Y )XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
따라서 대규모 데이터 세트 대한 와 의 샘플 상관 관계 특별한 경우로 "임의의 숫자"를 포함 이러한 특성을 가진 인구에서 가져온 결과는 인구의 상관 값에 근접하는 경향이
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071

방법을 좀 더 설명해 주시겠습니까?cov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X)는 var (X)의 다른 이름입니다. X와 Y는 상관되지 않은 것으로 가정하기 때문에 cov (X, Y) = 0입니다 (따라서 공분산 = 0).
Dilip Sarwate

58

기하학적 통계 설명.

를 Where 당신이 "내부 아웃"산점도을 상상 과목 있는 변수 와 있는 . 이것을 주제 공간 플롯 이라고합니다 (일반적인 가변 공간 플롯 과 반대 ). 플롯 할 점이 2 개뿐이므로 2 점과 원점을 지원할 수 있고 임의의 두 점을 제외한 임의의 두 치수를 제외한 공간의 모든 치수는 중복되며 안전하게 제거 할 수 있습니다. 그래서 우리는 비행기를 가지고 있습니다. 우리는 원점에서 점까지 벡터 화살표를 그립니다 : 이들은 데이터의 주제 공간에서 벡터로서 변수 와 입니다.n 2 XYXY

이제 변수가 중심에 놓인 경우 대상 공간에서 벡터 간 각도의 코사인은 상관 계수 입니다. 아래 그림에서 와 벡터는 직교합니다 : 그들의 . 무관심은 @Dilip이 제시 한 전제 조건이었습니다.Y r = 0XYr=0

또한 중심에있는 변수의 경우 주제 공간에서 벡터 길이는 표준 편차 입니다. 그림에서 와 는 길이가 동일합니다. 동일한 분산도 @Dilip의 전제 조건이었습니다.YXY

변수 또는 변수 를 그리려면 학교 이후에 잊어 버린 벡터 더하기 또는 빼기를 사용합니다 (빼기의 경우 Y 벡터를 X 벡터의 끝으로 옮기고 방향을 반전시킵니다-이것은 회색 화살표로 표시됩니다) 그림에서-회색 화살표가 가리키는 곳으로 벡터를 그립니다.X + YXYX+Y

또는 벡터 의 길이 (이러한 변수의 표준 편차)는 피타고라스 정리에 의해 이며 와 또는 사이의 각도 는 45도, 코사인-상관 관계X + Y XYX+Y XXYX+Y0.707 ...2σ2XXYX+Y0.707...

여기에 이미지 설명을 입력하십시오


4
이 접근법을 공유하는 데 큰 도움이됩니다.
whuber

(+1) 이것이 이것을 제시하는 매우 깔끔한 방법입니다!
매트 크라우스

아 ... 사진! (+1) 잘하셨습니다. :-)
추기경

11

여기 대칭성에 기반한 간단한 직관도 있다고 생각합니다. X와 Y는 분포가 같고 공분산이 0이므로 X ± Y와 X의 관계는 X ± Y 변동의 절반을 "설명"해야합니다. 나머지 절반은 Y로 ​​설명해야합니다. 따라서 R 2 는 1/2이어야합니다. 이는 R이 1 / √2 ≈ 0.707임을 의미합니다.


이 좋은 직관처럼 보이지만,주의 그 경우 , 작성하는 표준 방법 것 ,하지 경우에도 어떤 사람들을 혼동 할 수있는 그들 대수적으로 같습니다. Rr2=12r 1/1/21/2
gung-모니 티 복원

아니요, 실제로는 더 표준이 아닙니다. (증거가 필요하면 가장 적합한 답변을 찾아보십시오. 이미 투표 한 38 명이 같은 표기법으로
떨리지 않았습니다

나는 그 38 ;-) 중 하나입니다. 문제는 대수학이 상당히 약한 사람이 가장 쉽게 따라갈 수있는 것입니다. 만약 , 그럼 있는지 쉽게 . , R = r2=1/2r=1/2
gung-복원 Monica Monica

3

여기 왜 상관 관계가 있는지에 대해 생각할 수있는 간단한 방법이 있습니다.

두 분포를 빼면 어떻게 될지 상상해보십시오. x의 값이 낮 으면 평균적 x - y으로 x의 값이 높은 경우보다 낮은 값이됩니다. x가 증가함에 따라 x - y평균적으로 증가하므로 양의 상관 관계가 발생합니다.


4
나는 당신의 진술이 항상 사실이라고 생각하지 않습니다 . "수학적 관계가있을 때 항상 두 개의 무작위 분포 사이에 상관 관계가있을 것입니다." 예 : x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@curious_cat : 또는 아마도 더 설득력을 얻으려면 y완전히 떨어 뜨려 라 . :-)
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.