상관 관계는 어떤 조건에서 인과 관계를 암시합니까?


85

우리는 모두 1 학년 통계 학생들에게 드러난 "상관이 인과 관계를 암시하지는 않는다"라는 만트라를 알고 있습니다. 아이디어를 설명하기위한 몇 가지 좋은 예가 있습니다 .

그러나 때때로 상관 관계 인과 관계를 암시합니다. 다음 예제는이 Wikipedia 페이지 에서 가져 왔습니다 .

예를 들어, 테스트에서 지속적으로 동일한 성적을 얻는 것으로 알려진 동일한 쌍둥이에 대해 실험을 수행 할 수 있습니다. 한 쌍둥이는 6 시간 동안 공부하도록 보내지고 다른 쌍둥이는 유원지로 보내집니다. 시험 점수가 급격히 급상승 한 경우, 공부 (또는 유원지에 가다)가 시험 점수에 인과 적 영향을 미쳤다는 강력한 증거가됩니다. 이 경우 연구 점수와 시험 점수 간의 상관 관계는 거의 확실하게 인과 관계를 암시합니다.

상관 관계가 인과 관계를 암시하는 다른 상황이 있습니까?


16
상관 관계와 링크의 강력한 근본적인 이유는 그렇지 않은 것으로 입증 될 때까지 인과 관계를 제안합니다.
제임스

8
칼 포퍼 (Karl Popper)는 사람이 인과 관계를 확립 할 수 없다고 말하지 않았습니까? 과학 이론은 본질적으로 추상적입니다. 그것들은 반증이 될 수 있고 우리가 무언가를 위조하는 데 어려움을 낳는다는 사실은 우리가 인과 관계에 대해 생각하게합니다 ...
Robin girard

3
Jaynes의 흥미로운 반례 :“구름이 없다”는 연역적 관계는“비가 없다”를 의미한다. 그러나 "구름 없음"이 "비 없음"의 물리적 원인이라고 믿는 사람은 누구입니까?
chanceislogic

4
사전에 그 의미가 1. 제안과 2. 둘 다 필요하기 때문에 'imply'와 다른 용어를 사용합시다.
rolando2

그 쌍둥이도 이해가 되나요? 나는 인과 관계의 의미가 연구 방법 / 체제의 차이가 쌍둥이의 시험 점수에 차이를 야기한다는 것을 의미한다. 그러나 그것은 하나의 표본이며, 큰 표본이 ​​있더라도 가설, 검은 백조 스타일을 깨는 반대 반응을 갖는 쌍둥이 세트 하나입니다 ... @probabilityislogic : "구름이 없다"라는 개념에는 물리적 의미? 그렇다면 두 번째 부분이 왜 믿을 수 없는지 알 수 없습니다.
naught101

답변:


33

인과 관계로는 충분하지 않습니다. 그 쌍둥이가 항상 답을주는 장치를 사용하여 테스트에서 부정 행위를한다고 상상함으로써 Wikipedia 예제를 해결할 수 있습니다. 유원지에가는 쌍둥이는 장치를 잃으므로 낮은 등급입니다.

이 자료를 바로 얻는 좋은 방법은 Pearl이 그의 저서 Causality 에서 수행 한 것처럼 측정 된 양을 생성 할 수있는 베이지안 네트워크의 구조를 생각하는 것입니다 . 그의 기본 요점은 숨겨진 변수를 찾는 것입니다. 측정 된 샘플에서 변하지 않는 숨겨진 변수가 있으면 상관은 원인을 암시하지 않습니다. 모든 숨겨진 변수를 노출하면 원인이 있습니다.


해당 베이지안 네트워크의 화살표 방향이 원인과 관련이있는 이유를 이해하는 데 어려움이 있습니다. 예를 들어, A-> B와 B-> A는 인과 관계에 대한 다른 방향을 나타내지 만 두 구조에 대한 베이지안 네트워크는 동일합니다
Yaroslav Bulatov

6
그것들은 개입에있어 동등하지 않습니다.
Neil G

이러한 베이지안 네트워크는 데이터 중 하나에서 샘플링 된 데이터가 있다면 어떤 데이터인지 알 수 없습니다
Yaroslav Bulatov

4
어 ... 나는 실제 통계에 대해 잘 알지 못하지만 ... 정의로 "숨겨진 변수를 모두 공개하지"않습니까? 더 이상 "숨겨진"변수가 없는지 어떻게 알 수 있습니까?
Craig Walker

4
@Craig 그게 요점입니다; 불가능합니다.
저스틴 L.

35

역학 관점 에서 볼 때 인과 관계에 대한 의견을 추가하겠습니다 . 이러한 주장의 대부분은 Prince et al.의 Practical Psychiatric Epidemiology 에서 발췌 한 것이다 . (2003).

인과 관계 또는 인과 관계 해석 은 역학적 연구에서 가장 어려운 측면이다. 코호트횡단면 연구는 예를 들어 혼란스러운 영향을 초래할 수 있습니다. 인용문 S. Menard ( 종종 연구 , Sage University Paper 76, 1991), 인과 모델링의 HB Asher (Sage, 1976)는 처음에 다음 기준을 충족 할 것을 제안했습니다.

  • 예를 들어 실험군과 대조군 사이의 차이 또는 두 변수 사이의 0이 아닌 상관 관계에 의해 나타나는 바와 같이, 현상 또는 변수는 문제가되지 않아야한다.
  • 관계는 다른 변수 또는 변수 세트에 기인해서는 안됩니다. 즉, 가짜가 아니어야하지만 실험 설계에서 성공적인 무작위 배정에 의해 표시된 것처럼 다른 변수가 제어되는 경우에도 지속되어야합니다 (실험과 치료 전 대조군) 또는 다른 변수가 일정하게 유지되는 두 변수 사이의 0이 아닌 부분 상관 관계에 의해.
  • 예상되는 원인은 영향의 관련 변화보다 늦게 발생하는 원인의 변화에 ​​의해 지시 된 바와 같이, 예상되는 원인이 시간에 따른 영향과 우선하거나 그와 동시에 있어야합니다.

처음 두 기준은 단면 또는 시간 순서의 단면 연구를 사용하여 쉽게 확인할 수 있지만 후자는 세로 데이터없이 시간 순서를 가정 할 수있는 생물학적 또는 유전 적 특성을 제외하고 세로 데이터만으로 평가할 수 있습니다. 물론 비 재귀 인과 관계의 경우 상황이 더욱 복잡해집니다.

또한 @James가 인용 한 것처럼 인과 효과와 관련된 9 가지 다른 기준을 포함하는 Hill (1965)이 발표 한 접근 방식을 요약 한 다음 그림 (앞서 언급 한 13 장)을 좋아합니다. 원래 기사는 실제로 "환경과 질병 : 협회 또는 원인?" ( PDF 버전 ).

1965 년 언덕

마지막으로 Rothman의 가장 유명한 책인 Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2nd Edition) 2 장은 통계적 및 철학적 관점에서 인과 관계와 인과 추론에 대한 매우 완전한 토론을 제공합니다.

나는 다음과 같은 참고 문헌을 추가하고 싶습니다 (대부분 역학 온라인 과정에서 가져온).

마지막으로,이 리뷰는 인과 관계 모델링에 대한 더 큰 관점을 제공합니다. 인과 관계 추론 : 개요 (J Pearl, SS 2009 (3)).


18

당신의 질문의 핵심은 "관계의 원인은 언제입니까?"라는 질문입니다. 원인을 암시하는 (또는 그렇지 않은) 상관 관계 일 필요는 없습니다.

이 주제에 대한 좋은 책은 Johua Angrist와 Jorn-Steffen Pischke의 Mostly Harmless Econometrics 라고 합니다. 그것들은 우리가 어떤 방식으로 연구중인 "치료"를 무작위화할 수있는 실험적 이상에서 시작하여 인과 적 영향을 이끌어 내기 위해이 무작위 화를 생성하기위한 대체 방법으로 옮깁니다. 이것은 소위 자연 실험에 대한 연구로 시작됩니다.

인과 관계를 식별하기 위해 사용되는 자연 실험의 첫 번째 예 중 하나는 Angerist의 1989 년 "Lifetime Earnings and Vietnam Era Draft Lottery" 논문입니다 . 이 논문은 평생 소득에 대한 군 복무의 영향을 추정하려고한다. 인과 관계 영향을 추정하는 데있어 중요한 문제는 특정 유형의 사람들이 참여할 가능성이 더 높기 때문에 관계의 측정을 편향시킬 수 있다는 것입니다. Angrist는 베트남 복권 복권에 의해 만들어진 자연 실험을 사용하여 치료 "군사"를 남성 그룹에 효과적으로 "무작위로 할당"합니다.

그렇다면 인과 관계는 언제입니까? 실험 조건에서. 우리는 언제 가까워 지나요? 자연 실험에서. "인과 관계"에 가까워 지도록하는 다른 기법들도 있습니다. 즉, 단순히 통계적 제어를 사용하는 것보다 훨씬 낫습니다. 회귀 불연속, 차이 차이 등이 포함됩니다.


15

상관 관계 부족이 원인이 없다는 증거로 사용될 때 반대의 경우에도 문제가 있습니다. 이 문제는 비선형 성입니다. 상관 관계를 볼 때 사람들은 보통 빙산의 일각 인 피어슨을 확인합니다.


14

귀하의 예는 통제 된 실험 의 예입니다 . 상관 관계가 원인을 암시 할 수있는 위치에 대해 알고있는 다른 컨텍스트는 자연 실험 의 컨텍스트입니다 .

기본적으로 자연 실험은 실제 환경에서 자연스럽게 발생하는 치료에 일부 응답자의 할당을 활용합니다. 치료 및 대조군에 대한 응답자의 할당은 실험자에 의해 제어되지 않기 때문에 상관이 인과 관계를 암시하는 정도는 어느 정도 약할 수있다.

더 많은 정보 제어 / 자연 실험에 대한 위키 링크를 참조하십시오.


12

제 생각에 APA Statistical Task Force는 그것을 아주 잘 요약했습니다.

''비 랜덤 화되지 않은 설계에서 인과성을 유추하는 것은 위험한 기업입니다. 비 랜덤 화 설계를 사용하는 연구원은 설계에 포함 된 공변량의 논리를 설명하고 결과를 설명 할 수있는 그럴듯한 라이벌 가설을 독자에게 경고해야 할 추가 의무가 있습니다. 무작위 실험에서도 치료 조건의 한 측면에 인과 적 영향을 주려면 추가 실험의 지원이 필요합니다 .''- APA 태스크 포스


11

오스틴 브래드 포드 힐 경의 왕립 의학 협회 회장의 연설 환경 및 질병 : 협회 또는 원인 ) 주소는 두 가지 상관 변수 또는 관련 변수 사이에 인과 관계가 있는지 판단하는 데 도움이되는 9 가지 기준을 설명합니다.

그들은:

  1. 협회의 힘
  2. 일관성 : "다른 사람, 다른 장소, 환경 및 시간에 반복해서 관찰 되었습니까?"
  3. 특성
  4. 시간성 : "장바구니와 말은?" -원인이 영향보다 우선해야 함
  5. 생물학적 그라디언트 (선량-반응 곡선)-효과의 크기는 (의심 된) 인과 변수의 크기에 어떤 방식으로 의존 하는가?
  6. 타당성-원인에 대한 설명이 있습니까?
  7. 일관성-인과 관계가 다른 확립 된 사실과 모순 되는가?
  8. 실험-(의심 된) 인과 변수의 실험 조작이 (의심 된) 종속 변수에 영향을 미칩니다
  9. 비유-과거에 비슷한 인과 관계가 발생 했습니까?

9

쌍둥이의 예에서 인과 관계를 암시하는 것은 상관 관계뿐만 아니라 관련 정보 나 사전 지식입니다.

정보를 하나 더 추가한다고 가정 해 봅시다. 부지런한 쌍둥이가 통계 시험을 위해 6 시간을 공부했지만 불행한 오류로 인해 시험은 역사에 있다고 가정합니다. 우리는 여전히 연구가 우수한 성과의 원인이라고 결론 지 을까요?

인과 관계를 결정하는 것은 과학적인 문제만큼이나 철학적 인 문제이므로 인과 관계를 논의 할 때 David Hume 및 Karl Popper와 같은 철학자를 불러오는 경향이 있습니다.

의심 할 여지없이 의학은 미생물과 질병 사이의 인과 관계를 확립하기위한 코흐의 가정과 같이 휴리스틱을 통해 인과 관계를 확립하는 데 크게 기여했다. 이들은 병원체 내의 유전자가 병원체에 의해 야기 된 질병에 기여하는 생성물을 암호화한다는 것을 보여주기 위해 요구되는 "분자 코흐의 가정"으로 확장되었다.

불행히도 나는 새로운 사용자 (사실이 아님)이고 충분한 "평판 포인트"가 없기 때문에 아마도 하이퍼 링크를 게시 할 수 없습니다. 진짜 이유는 누구나 추측하는 것입니다.


9

상관 관계만으로는 인과 관계를 암시하지 않습니다. 그렇게 간단합니다.

그러나 두 변수 사이에만 상관 관계가있는 것은 매우 드 rare니다. 종종 당신은 또한 그 변수가 무엇인지, 이론 또는 이론에 대해 알고 있으며, 변수 사이에 인과 관계가있을 수있는 이유를 제안합니다. 그렇지 않다면 우리는 상관 관계 검사를 귀찮게합니까? (그러나 중요한 결과를 얻기 위해 대규모 상관 행렬을 채굴하는 사람들은 종종 우연한 이론을 가지고 있지 않습니다.

일반적인 비판에 대한 답변 "그렇습니다.하지만 그것은 단지 상관 관계입니다. 원인을 암시하지 않습니다":

  1. 우연한 관계를 위해서는 상관 관계가 필요합니다. 상관 관계를 반복적으로 찾지 못하면 실제로 나쁜 소식이 될 것입니다.
  2. 나는 단지 당신에게 상관 관계를주지 않았습니다.
  3. 그런 다음 상관 관계를 설명하는 가능한 인과 메커니즘을 설명합니다 ...

2
요점 # 1에 대한 반례 : 혼란스러운 시스템에서는 명백한 상관 관계없이 인과 관계를 가질 수 있습니다.
mkt

8

인과 관계에 대한 하나의 유용한 조건

상관 변수 중 하나를 제어 할 수 있고 (값을 직접 설정할 수 있음) 상관 관계가 여전히 존재하는 경우 원인이있을 수 있습니다.


2
"변수의 값을 직접 설정하는"펄이라는 단어를 사용할 수도 있습니다.
Neil G

8
  1. 거의 항상 무작위 시험에서
  2. 누군가가 모든 오염 물질을 측정 할 때 거의 항상 관측 연구에서
  3. 때때로 누군가가 일부 공동 창업자를 측정 할 때 (Pearl 's Causality에서 DAG 발견의 IC * 알고리즘)
  4. 두 개 이상의 변수를 가지지 만 상관 관계 측정 값으로 상관 관계를 사용하지 않는 비가 우스 선형 모형 ( LiNGAM )

발견 알고리즘의 대부분은 Tetrad IV 에서 구현됩니다.


6

관련 질문은 다음과 같습니다. 어떤 조건에서 데이터에서 인과 관계를 안정적으로 추출 할 수 있습니까?

2008 NIPS 워크숍 은이 질문을 경험적으로 다루려고 노력합니다. 하나의 변수가 다른 변수를 유발하는 것으로 알려진 변수 쌍의 관측에서 인과 관계의 방향을 추론하는 것이 임무 중 하나였으며, 가장 좋은 방법은 80 %의 인과 관계 방향을 정확하게 추출 할 수있었습니다.


3

잘 설계된 실험에서 거의 확실합니다. (물론 그러한 연결 을 이끌어 내도록 설계되었습니다 .)


3

요인 A가 현상 B의 원인이라고 생각한다고 가정 해 보자. B가 변하지 않고 다른 모든 것이 변하지 않았다고 가정 할 수 있다면 A가 B의 원인이 아니라는 강력한 증거가 있습니다. B가 변하면 A의 변화로 인해 A가 원인이라고 결론 내릴 수 없습니다 실제 원인 C의 변경으로 인해 B가 변경되었습니다.


다양한 A를 만들 수 있습니까?
RockScience

2

나는 경험적 패러다임을 논의 할 때 '증거'가 여기에서 사용 된 것을 알았습니다. 그와 같은 일은 없다. 먼저 아이디어가 발전된 가설이 온다. 그런 다음 "제어 된 조건"[주 a]에서 테스트가 이루어지며 "충분한" 불충분 부족 이 발견되면 가설...기간. 1) 상기 사건이 발생할 때마다 [주 b] 관리 할 수 ​​있고 물론 2) 원인을 확립 할 수 없다면 증거는 없다. 1) 무한한 우주에서는 불가능하다 [본질 상 무한대는 증명할 수 없다]. 참고 A; 완전히 통제 된 조건 하에서 어떠한 실험도 수행되지 않으며, 통제 된 조건이 많을수록 무한한 인과 관계가있는 외부 우주와의 유사성이 적습니다. 참고 b; '이벤트'를 완벽하게 묘사 했어야하는데 아마도 아마도 인간 언어가 아닌 완벽하게 정확한 언어를 의미 할 것입니다. 마지막으로 모든 원인은 아마도 첫 번째 사건으로 돌아갑니다. 이제 이론을 가진 모든 사람에게 이야기하십시오. 예, 정식 및 비공식적으로 공부했습니다. 결국; 아닙니다. 근접성은 인과 관계 나 일시적 상관 관계 이외의 다른 것을 의미하지는 않습니다.


1

XY

Y=bX+u

bXYE(b)=BXuE(u|X)=0u YXY

편견이없는 것은 추정기의 바람직한 특성이지만 추정기가 효율적이고 (낮은 분산) 일관성을 갖기를 원할 것입니다 (확률이 실제 값과 유사 함). Gauss-Markov 가정을 참조하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.