인과 관계는 상관 관계를 의미합니까?


118

상관 관계에 대한 많은 설명이있을 수 있으므로 상관 관계는 원인을 암시하지 않습니다. 그러나 인과 관계는 상관 관계를 의미합니까? 직관적으로, 인과 관계가 존재한다는 것은 반드시 상관 관계가 있음을 의미한다고 생각합니다. 그러나 내 직감이 통계에서 항상 나에게 도움이되지는 않았습니다. 인과 관계는 상관 관계를 의미합니까?


5
문제는 사전에서 "암시"를 찾는 경우 "추천"과 "필요"를 모두 볼 수 있다는 것입니다.
rolando2

6
상관 관계는 인과 관계를 암시하지는 않지만, 눈썹을 암시 적으로 흔들리면서 '저쪽을 바라본다'면서 입을 다물고 있습니다. xkcd.com/552
jchristie

1
질문 자체가 암시하는 단어가 나타내는 것처럼 구체적이고 사실적인 대답을 찾지 않는 것 같습니다. 위의 참조는 궁극적 인 것 같습니다. 아니면 아마 더 좋아하지만 그것을 증명할 수는 없습니다.
jchristie

답변:


96

위의 많은 답변에서 언급했듯이 인과 관계는 선형 상관 관계를 의미하지 않습니다 . 많은 상관 관계 개념은 선형 통계에 크게 의존하는 필드에서 비롯되므로 일반적으로 상관 관계는 선형 상관 관계와 같습니다. 위키 피 디아 기사는 정말이 이미지처럼,이에 대한 괜찮아 소스입니다 :

상관 관계 예

예를 들어 네 번째 예의 포물선 모양과 같이 맨 아래 줄의 일부 그림을보십시오. 이것은 @StasK 답변에서 발생하는 것입니다 (소음이 약간 추가됨). Y는 X에 의해 완전히 발생할 수 있지만 숫자 관계가 선형이 아니며 대칭이 아닌 경우에도 상관 관계는 0입니다.

찾고있는 단어는 상호 정보입니다 . 이것은 일반적인 비선형 버전의 상관 관계입니다. 이 경우, 귀하의 진술은 사실입니다. 원인은 높은 상호 정보를 암시합니다 .


3
높은 상호 정보가 인과 관계를 수반한다는 것이 항상 사실은 아니지만 항상 사실은 아닙니다. "원인이 정확히 반대 효과를 가진 다른 인과 변수와 완벽하게 상관되어있는 경우"@gung의 답변을 참조하십시오.
Neil G

5
항상로 나에게 많은 이해가되지 않습니다 서로를 취소 반대 효과 두 가지 원인의 인수 원인 . 나는 항상 유니콘이 무언가를 일으키는 것으로 생각하고 그렘린은 그들의 노력을 완벽하게 취소한다고 생각할 수 있습니다. 어리석기 때문에 이것을 피하십시오. 그러나 나는 당신의 요점을 오해하고 있습니다.
Artem Kaznatcheev

11
그의 예는 필요 이상으로 극단적입니다. 부울 변수 및 사용하여 와 가 원인 이고 (mod 2)가 될 수 있습니다. 따라서 , 및 에 대한 지식 이 없으면 상호 정보가 없습니다. 는 알려지지 않은 혼란 자입니다. 아주 흔한 것이지만 "gremlins"라고 부르는 것입니다. A,BCABCC=A+BBACB
Neil G

2
@ NielG 나는 첫 번째 문장에 동의하지만 두 번째 문장에는 동의하지 않습니다. A & B가 C를 유발한다고해서 A가 C와 B가 C를 유발한다는 의미는 아닙니다. 왜 &가 원인을 분배해야하는지 알 수 없습니다.
Artem Kaznatcheev

4
그럼에도 불구하고 A가 C의 원인 인 이유는 A를 변경해도 여전히 C가 변경되기 때문입니다. 따라서 B를 관찰하지 않아도 C는 A에 의존합니다.
Neil G

41

엄격한 대답은 "아니오, 인과 관계가 반드시 상관 관계를 암시하는 것은 아닙니다"입니다.

고려 및 . 원인은 더 강해지지 않습니다 : 는 결정 합니다. 그러나 와 상관 관계 는 0입니다. 증명 : 이러한 변수의 (공동) 모멘트는 다음과 같습니다. ; ; 사용 홀수 모멘트가 모두 0 인 표준 정규 분포의 속성 (즉, 모멘트 생성 함수에서 쉽게 도출 할 수 있음). 따라서 상관 관계는 0과 같습니다.XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

일부 의견을 다루기 위해 :이 주장 이 효과를 발휘할 수 있는 유일한 이유는 의 분포가 0에 중심을두고 0에 대해 대칭 이기 때문입니다 . 실제로, 충분한 수의 모멘트를 갖는 이러한 특성을 가진 다른 분포는 장소 , 예를 들어 또는 Laplace 에서 균일합니다 . 지나치게 단순화 된 주장은 모든 양수 값에 대해 같은 크기 의 의 음수 값과 동일 할 가능성이 있으므로 를 제곱 할 때 더 큰 값이 더 크거나 작은 값과 관련이 있다고 말할 수는 없습니다 의XN(0,1)(10,10)exp(|x|)XXXXY. 그러나 하면 , , 및 . 이것은 가 0보다 작은 각 값에 대해 0보다 큰 값이 훨씬 높 으므로 큰 값은 더 큰 값과 연관됩니다 . (후자는 비 중앙 분포를 가지며, Wikipedia 페이지에서 차이를 가져 와서 관심이 있다면 상관 관계를 계산할 수 있습니다.)XN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2


2
@DQdlM : 표준 랜덤 변수는 밀도의 균일 성으로 인해 홀수 중심 모멘트사라 집니다. Matthew : StasK가 보여 주듯이 상관 관계는 유일한 의존성 유형이 아니기 때문에 대답은 '아니오'입니다.
Emre

3
@DQdlM : Wikipedia correlation page 의 첫 번째 이미지에서 아래쪽 가운데 그래프를 참조하십시오 . StasK의 경우입니다. x가 원점에 대해 똑같이 분포 된 경우에만 작동합니다 (즉, 이면 상관 관계가 상당히 높을 것입니다)XN(3,1)
naught101

3
추신 :이 답변을 게시하게되어 매우 기쁩니다. 이 대답없이 질문이 너무 오래 갔다고 믿기 어려웠습니다. 이것은이 질문을 보았을 때 내 마음에 온 정확한 예 였지만 그것을 작성할 시간은 얻지 못했습니다. 난 당신이 기뻐 않은 시간이 걸릴. 건배.
추기경

3
@ cardinal : 예, 우리 모두 대학원에서 이러한 종류의 간단한 반례를 배웠습니다 ... 공분산의 파생에서 첫 번째와 세 번째 순간 만 0이 필요합니다. 3 분의 1의 순간이없는 비대칭 분포의 사소한 예를 가지고 있다면 (5-6 점에 걸쳐 정밀하게 조정 된 확률 질량은 계산되지 않습니다), 나는 그것을보고 매우 궁금합니다.
StasK

3
여기서 '인과 관계'는 함수로 표현할 수 있다고 가정합니다. 이것은 인 발생 측정 가능한 기능이 존재하는 경우에만, , 예컨대 그 . 우리는이 논쟁의 타당성에 관해 우리의 남은 인생을 보낼 수 있다고 생각합니다. XYfY=f(X)

31

본질적으로 그렇습니다.

상관 관계는 원인을 넘어서는 상관 관계에 대한 다른 설명이있을 수 있기 때문에 인과 관계를 암시하지 않습니다. 그러나 A가 B의 원인이 되려면 어떤 방식 으로든 연관되어야합니다 . 상관 관계가 반드시 선형 일 필요는 없지만 상관 관계가 있음을 의미합니다.

일부 의견 제시 자들이 제안했듯이 상관 관계보다는 '종속성'또는 '연관'과 같은 용어를 사용하는 것이 더 적합 할 것입니다. 주석에서 언급했듯이 간단한 선형 상관 관계를 넘어서는 분석에 대한 응답으로 "상관은 인과 관계를 의미하지 않습니다"를 보았으므로 목적 상 "상관 관계"를 기본적으로 A와 B의 연관성


16
선형 상관 관계에 대해 단어 상관 관계를 유지하고 선형 상관 관계가 있거나 없을 수있는 비선형 관계에 대한 종속성 을 사용 하는 경향 이 있습니다.
Memming

4
@Memming 나도 사람들이 "상관이 인과 관계를 암시하지 않음"을 트로트한다는 사실을 제외하고는 상당히 복잡하다.
Fomite

memming이 맞습니다. Pearson 상관 관계를 의미하지 않는 경우 상관 관계를 정의해야합니다.
Neil G

1
@NeilG 또는 그 문제에 대해 하나의 변수를 변환하여 선형 Pearson 상관 관계를 얻을 수 있습니다. 문제는 그 속담 자체가 지나치게 단순화되었다는 것입니다.
Fomite

1
@EpiGrad : 두 가지 좋은 점. 일반적으로, 상관 관계는 A와 더 많은 B와 일치합니다. 상관 관계에 대한 광범위한 정의를 명확하게 사용하면 대답이 도움이 될 것이라고 생각합니다.
Neil G

23

@EpiGrad의 답변에 추가. 많은 사람들에게 "상관"은 "선형 상관"을 의미한다고 생각합니다. 비선형 상관의 개념은 직관적이지 않을 수 있습니다.

그래서 저는 " 상관 될 필요는 없지만 관련 될 필요가 있습니다"라고 말할 것 입니다. 우리는 그 물질에 동의하지만 그 물질을 가로 지르는 가장 좋은 방법에 대해서는 동의하지 않습니다.

그러한 인과 관계의 한 예 (적어도 사람들은 인과 적이라고 생각합니다)는 전화 응답 가능성과 소득 간의 가능성입니다. 소득 스펙트럼의 양쪽 끝에있는 사람들이 중간에있는 사람들보다 자신의 전화에 응답 할 가능성이 낮다는 것이 알려져 있습니다. 인과 적 패턴은 빈곤층 (예 : 청구서 수집가 방지)과 부유층 (예 : 기부 요청을 피하는 사람)에 따라 다르다고 생각됩니다.


21

여기에는 뉘앙스가 있습니다. 인과 관계 상관 관계 나 통계적 의존성을 암시 하지 않습니다 . 최소한 우리가 일반적으로 생각하는 단순한 방식이나 일부 답변이 제안하는 방식 ( 또는 변환 등) 은 아닙니다 .XY

다음과 같은 인과 모델을 고려하십시오.

XYU

즉, 와 는 모두 유발 합니다.XUY

이제 보자 :

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

관찰하지 않는다고 가정하십시오 . 그 주목 . 즉, 가 (비모수 적 구조식 의미에서) 유발 하더라도 의존성을 보지 못합니다! 원하는 비선형 변환을 수행 할 수 있으며 여기 에 와 의 한계 의존성이 없기 때문에 의존성을 나타내지 않습니다 .UP(Y|X)=P(Y)XYYX

트릭은 와 가 유발 하더라도 평균 인과 관계는 거의 0입니다. 와 함께 때 (정확한) 의존성 만 볼 수 있습니다 ( 및 의미하지 않음을 나타 냅니다). 그래서, 그래, 하나는, 비록 그 주장 할 수 발생 의 한계 인과 효과 에 우리의 의존도가 표시되지 않는 이유는 그래서, 제로 와 . 그러나 이것은 단지 문제가 얼마나 미묘한 차이를 설명하기 때문에XUYXUXYUY {X,U}YXYXYXYX순진하게 생각하는 방식이 아니라 ( 와 상호 작용 ) 유발 합니다.YU

간단히 말해서 나는 다음과 같이 말할 것이다 : (i) 인과 관계 의존성을 암시 한다; 그러나, (ii) 의존성은 기능적 / 구조적 의존성 이며, 생각하고있는 특정 통계적 의존성으로 해석 될 수도 있고 번역되지 않을 수도 있습니다.


카를로스, 우리가 인과 모델과 관련된 모든 변수를 알고 있으면이 문제 (통계적 비 가시성)가 사라진다고 말하는 것이 맞습니다.
markowitz

@markowitz는 모든 것을 결정 론적 수준으로 관찰해야하므로 매우 현실적인 시나리오는 아닙니다.
Carlos Cinelli

나는 당신의 대답을“예”로 해석합니다. 내가 맞다고 생각하는 상황은 비현실적입니다. 알고 있습니다. 그러나 질문은 당신이 묘사 한 논리에 대해서만 관련이 있으며 최종성은 그것을 이해하는 것이 었습니다. 내 신념은“원인이 통계적 연관성을 암시한다”와 같은 것이며이 페이지의 다른 답변은 다음과 같습니다. 결국 귀하의 예는 약간 비현실적이지만 이러한 이유로 흥미가 없습니다. 일반적으로 통계적 연관이없는 인과 관계는 약간 비현실적이지만 이론적으로는 흥미로운 것 같습니다.
markowitz

1
@markowitz "통계적 비 가시성"은 모형이 그래프에 충실하지 않을 때 발생합니다. 정확한 취소를 위해서는 특정 매개 변수 선택에 따라 달라 지므로 일부 사람들은 실제로는 그렇지 않다고 주장합니다. 그러나 근사 취소는 매개 변수의 주변에 의존하기 때문에 그럴듯 할 수 있으므로 모두 상황에 따라 다릅니다. 여기서 중요한 것은 논리적으로 인과 관계가 그 자체로 연관성을 암시하지 않기 때문에 인과 관계 가정을 명시 적으로 만들어야한다는 것입니다. 추가 가정이 필요합니다.
Carlos Cinelli

13

아무 변화가없는 경우를 제외하고 원인과 효과는 상관 관계가 될 것입니다 전혀 빈도와 원인의 크기와 전혀 변화에 전혀 그 인과 힘에. 다른 원인은 원인이 정확히 반대 효과를 가진 다른 인과 변수와 완벽하게 상관되어 있는 경우 일 수 있습니다 . 기본적으로 이들은 생각 실험 조건입니다. 현실에서 인과 관계는 어떤 형태의 의존성을 의미 할 것입니다 ( 선형 적 상관 관계 는 아니지만 ).


3
@NeilG, 나는 이탤릭체로 중독에 빠졌다 .
gung

1
일부 이론, 예를 들어 많은 게임 이론 모델이 실제로이를 암시합니다. 차이를 분별할 수없는 일부 경험적 상황 (실제로 하나의 'ung-italics'에있을 수는 있지만 :-)에는 두 가지 수준에서 진화 적 선택 압력이 다른 방향을 가리킬 때 '중립적'유전자 변경 시나리오가 포함되지 않습니다.
conjugateprior

1
나는 첫 번째 예외를 좋아하지만 두 번째 예외는 좋아하지 않습니다. 스위치를 뒤집 으면 조명이 켜지는 것으로 생각하지만 정전 중에 스위치를 뒤집 으면 아무 일도 일어나지 않습니다. 아마도 인과 관계는 없었을 것입니다.
emory

1
@ naught101,이 페이지의 다른 곳에서 논의 된 좋은 지적을합니다. 내 답변을 편집했습니다. 그러나 사람들과 함께 일했을 때, 그들이 말 했음에도 불구하고 그들이 반드시 선형 적으로 강한 상관 관계 개념을 가지고 있다고 생각하지 않습니다. 비록 이러한 용어를 사용하지 않더라도 대부분의 사람들은 '상관 관계'를 '기능'에 더 가깝게 이해한다고 생각합니다. 그럼에도 불구하고, 나는 용어를 사용하는 것이 더 명확해야하며 처음부터 시작해야했습니다.
gung

2
@emory : 조명이 켜지는 원인은 실제로 전기 회로가 닫히는 것입니다 (이 기능은 그리드가 작동하는 환경 조건에서 스위치가 튕겨서 발생 함). 정전 중에 스위치를 튕겨도 회로가 닫히지 않습니다. 스위치가 다른 곳에서 고장 났기 때문입니다. 어떤 의미에서, 정전은 쿵이 말한 "반대"효과입니다 (즉, 빛이 켜져 있으면 정전이 꺼집니다). 또한 무효화 효과로 생각할 수도 있습니다.
naught101

2

여기에 큰 답변이 있습니다. Artem Kaznatcheev , FomitePeter Flom 은 인과 관계가 일반적으로 선형 상관 관계보다는 의존성을 의미한다고 지적합니다. Carlos Cinelli 는 생성 기능 설정 방법으로 인해 의존성이없는 예를 보여줍니다.

이 종속성이 실제로 잘 작동하는 데이터 세트 종류에서 실제로 사라질 수있는 방법에 대한 요점을 추가하고 싶습니다. Carlos의 사례와 같은 상황은 단순한 "생각 실험 조건"으로 제한되지 않습니다.

자체 규제 프로세스 에서는 의존성이 사라집니다 . 예를 들어 항상성은 내부 체온이 실내 온도와 독립적으로 유지되도록합니다. 외부 열은 체온에 직접 영향을 주지만 체온을 안정적으로 유지하는 신체의 냉각 시스템 (예 : 발한)에 영향을줍니다. 매우 빠른 간격으로 온도를 샘플링하고 매우 정밀한 측정을 사용하면 인과 관계를 관찰 할 수 있지만 정상적인 샘플링 속도에서는 체온과 외부 온도가 독립적으로 나타납니다.

자가 조절 과정은 생물학적 시스템에서 일반적입니다. 그것들은 진화에 의해 생산됩니다. 체온 조절에 실패한 포유류는 자연 선택에 의해 제거됩니다. 생물학적 데이터로 작업하는 연구원은 인과 관계가 데이터 세트에서 사라질 수 있음을 알고 있어야합니다.


-3

상관 관계가없는 원인이 RNG가 아닐까요?

받아 들여진 대답이 암시하는 것처럼 '상관 관계'라는 단어에 대한 믿을 수 없을만큼 제한된 해석을 사용하고 있다면 어리석은 질문입니다. 인구 증가 또는 강도.

권리?

그런 다음 다시, 당신은 더 많은 것을 논의 할 수 있습니다. 다른 것에 의해 영향을받는 것의 가시성 , 인과 같은 것으로 생각되지만 실제로는 당신이 측정하고 있다고 생각하는 것을 측정하지 않습니다 ...

네, 짧은 대답은 "예, 엔트로피를 만들 수없는 한"입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.