독립성이 왜 제로 상관을 의미합니까?


16

우선, 나는 이것을 묻지 않습니다.

제로 상관 관계가 독립성을 의미하지 않는 이유는 무엇입니까?

이것은 /math/444408/why-does-zero-correlation-not-imply-independence 에서 (아주 멋지게) 해결 되었습니다.

내가 묻는 것은 반대입니다 ... 두 변수는 서로 독립적입니다.

우연히 작은 상관 관계를 가질 수 없었습니까?

... 독립성이 매우 작은 상관 관계를 암시해서는 안됩니까?


5
독립 변수조차도 거의 항상 0이 아닌 SAMPLE 상관 관계를 가지지 만 여전히 0에 가깝습니다.
jsk

10
@jsk가 지적했듯이 샘플 상관 관계와 예상 상관 관계가 혼동 될 수 있습니다.
David

1
@David 설명 할 수 있습니까? 나는 아직도 통계 초보자입니다.
Joshua Ronis 2018 년

3
@JoshuaRonis 샘플 상관 관계는 많은 데이터로 작업 할 때 관찰하는 상관 관계입니다. 이를 사용하여 두 변수 사이의 "진정한"상관 관계를 파악할 수 있습니다. 표본이 클수록 추정치가 더 좋습니다. 예를 들어, 두 주사위의 결과 사이의 상관 관계는 독립적이므로 상관 관계가 없습니다. 10 회 롤로 묶어도 상관이있을 수 있습니다 (임의의 기회로 인해) 상관 관계가있을 수 있습니다. (즉, 당신은 각각의 기회가 동일합니다)
David

답변:


36

상관 계수의 정의에 따라 두 변수가 독립적이면 상관 관계는 0입니다. 따라서 우연히 상관 관계가 발생하지 않았습니다!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

경우 XY 독립적 인 수단 E[XY]=E[X]E[Y] . 따라서이 경우 ρX,Y 의 분자 는 0입니다.

따라서 여기에서 언급 한 것처럼 상관 관계의 의미를 변경하지 않으면 불가능합니다. 그렇지 않으면 상관 관계가 무엇인지 정의를 명확히하십시오.


2
그러나 우리는 해적 수와 지구 평균 기온 사이의 (역) 상관 관계를 분명히 보여주는 차트를 가지고 있습니다. 다른 의견에서 알 수 있듯이 '사고 발생'은 말할 것도없고 표본 크기에주의해야합니다.
Carl Witthoft

@OmG "여기에 언급 된대로 상관 관계의 의미를 변경하지 않으면"OP 질문을 읽을 때 "상관 관계"라는 의미가 매우 다릅니다. 나에게 : "우연히 작은 상관 관계를 가질 수 없었습니까?" "측정"상관 관계를 매우 강력하게 암시하며 실제로 상관 관계를 측정 할 때 "사고로 인한 작은 상관 관계"를 발견하게됩니다.
industry7

1
@ industry7 알겠습니다. 그러나 공식적인 방법으로 정의해야합니다. 그것은 질적이며 우리는 그것에 대해 이야기 할 수 없습니다.
OmG 2016 년

@CarlWitthoft 해적의 수와 지구 평균 기온은 독립적이지 않습니다. 그것들은 그들 사이의 의존성을 야기하는 일반적인 원인 (즉, 시간, 개발, 현대화 등)을 가지고 있습니다. "독립"이 "원인하지 않음"을 의미하지는 않습니다. 그것은 "비 연관"을 의미하며,이 차트들은 분명히 연관성을 보여줍니다.
노아

@Noah 나는 WHOOSH가 일어난 것을 두려워합니다. venganza.org
Carl Witthoft

19

r=0.ρ.]

n=51.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

enter image description here

5,r=0.5716.

enter image description here

이와 관련하여 지수 분포에 특별한 것은 없습니다. 모 분포를 표준 정규로 변경하면 다음과 같은 결과가 나타납니다.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

enter image description here

n=20.

enter image description here

r


6
작은 표본 크기의 경우 0과 "상당히"다른 샘플 상관 관계를 찾을 가능성이 높지만 0과 크게 다른 상관 관계는 더 이상 찾을 수 없습니다 . 포인트 추정치가 0이 아니더라도 우연이 아닌 다른 것으로 인해 0이 아닌 상관 관계가 있다고 자신있게 주장하기에는 데이터가 너무 적습니다. 단 5 쌍으로 0.8보다 큰 상관 계수는 0과 크게 다르지 않을 수 있습니다.
Nuclear Wang

11

간단한 대답 : 두 변수가 독립적 인 경우 모집단 상관은 0 인 반면 표본 상관은 일반적으로 작지만 0이 아닙니다.

표본이 모집단을 완벽하게 나타내지 않기 때문입니다.

표본이 클수록 모집단을 더 잘 나타내므로 상관 관계가 작아집니다. 를 들어 무한 샘플 상관 관계가 0이 될 것입니다.


1
정확한 공식은 ϵ, 몇 가지가 있습니다 샘플 크기가 , 상관 관계의 확률이 ϵ 보다 작다 .
누적

예, 절대적으로 맞습니다! 나는 대답을 가능한 한 단순하고 개념적으로 유지하려고 노력했다.
Dave

1

어쩌면 이것은 동일한 직관적 이해를 공유하는 일부 사람들에게 도움이 될 수 있습니다. 우리는 모두 다음과 같은 것을 보았습니다.

enter image description here

이 데이터는 아마도 독립적이지만 분명히 상관 관계를 나타냅니다 (아르 자형=0.66). "독립성은 무의미한 상관 관계를 의미한다고 생각했습니다!" 학생이 말합니다.

다른 사람들이 이미 지적했듯이 샘플 값은 상관되어 있지만 모집단 이 0이 아닌 상관 관계를 의미하지는 않습니다 .

물론이 두 개는 독립적이어야합니다. 니콜라스 케이지가 올해 기록적인 10 편의 영화에 출연했기 때문에 안전을 위해 여름에 수영장을 닫지 말아야합니다.

그러나 올해 얼마나 많은 사람들이 익사했는지 확인하면 올해 1000 명에 달하는 기록적인 사람들이 익사 할 가능성이 적습니다.

이러한 상관 관계를 얻는 것은 거의 불가능합니다. 아마도 천명 중 하나 일 것입니다. 그러나 두 사람이 독립적이더라도 가능합니다. 그러나 이것은 단지 하나의 경우입니다. 거기에서 측정 할 수있는 수백만 가지의 사건이 있다고 가정하면, 두 가지가 높은 상관 관계를 제공 할 가능성이 매우 높다는 것을 알 수 있습니다 (따라서 위와 같은 그래프가 존재 함).

이를 확인하는 또 다른 방법은 두 개의 독립적 인 이벤트가 항상 상관되지 않은 값을 제공하도록 보장하는 것 자체가 제한적이라는 것입니다. 두 개의 독립적 인 주사위와 첫 번째의 결과가 주어지면, 두 번째 주사위에 대해 일정한 (크기 조정 가능) 결과 세트가 있으며, 이는 0이 아닌 상관 관계를 제공합니다. 첫 번째 주사위의 롤이 결과 분포에 영향을 미치기 때문에 두 번째 주사위의 결과가 첫 번째 주사위와 0의 상관 관계를 갖지 않도록 제한하는 것은 명백한 독립 위반입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.