'상관 관계가 인과 관계를 암시하지 않는'경우 통계적으로 유의 한 상관 관계를 발견하면 인과 관계를 어떻게 증명할 수 있습니까?


30

나는 상관 관계가 원인이 아니라는 것을 이해한다 . 두 변수 사이에 높은 상관 관계가 있다고 가정합니다. 이 상관 관계가 실제로 인과 관계 때문인지 어떻게 확인합니까? 또는 어떤 조건 하에서 실험 데이터를 사용하여 둘 이상의 변수 간의 인과 관계를 추론 할 수 있습니까?


2
실험 데이터가 필요합니다. 참조 할 실험 설계를 설명하십시오.
Frank Harrell

1
선생님, 저는 실험 데이터가 없습니다. 인과를 추론하기 위해 어떤 종류의 제어 실험을 수행해야하는지 이해하고 싶습니까?
Manish Barnwal

4
가능한 많은 디자인이 있습니다. 간단히 말해서, 다른 모든 변수를 물리적으로 제어하고 관심있는 한 가지 요소를 변경하거나 실험 조작의 적용을 무작위 화하여 다른 모든 가능한 설명의 효과를 "평균화"합니다.
Frank Harrell

2
요컨대, 어떤 종류의 외생 변형이 필요합니다.
abaumann

1
상관 관계 XY그 중 하나를 다른 하나의 원인으로 선택하여 책임감을 최소화하고 운명 감을 극대화하십시오.
ttnphns

답변:


16

2 개의 변수가 서로 관련이있는 이유는 변경 사항이 세 번째 변수에 연결되어 있기 때문입니다. 다른 가능성있는 이유는 우연 (상관 관계에 대해 충분한 비 상관 변수를 테스트하는 경우 일부는 상관 관계를 나타냄) 또는 여러 단계를 포함하는 매우 복잡한 메커니즘입니다.

다음과 같은 예는 http://tylervigen.com/ 을 참조하십시오 .

여기에 이미지 설명을 입력하십시오

A-> B의 원인을 자신있게 진술하려면 변수 A를 제어하고 다른 변수에 영향을 미치지 않는 실험이 필요합니다. 그런 다음 변수를 변경하면 A와 B의 상관 관계가 여전히 존재하는지 측정합니다.

거의 모든 실제 응용 분야에서 다른 변수 (종종 미지의) 변수에도 영향을 미치지 않는 것은 거의 불가능하므로, 가능한 최선의 원인은 인과 관계가 없음을 증명하는 것입니다.

인과 관계를 밝히기 위해서는 두 변수가 인과 관계를 가졌다는 가설부터 시작하고, 가설을 반증하기 위해 실험을 사용하고, 실패하면 가설이 사실이라고 확신 할 수 있습니다. 확실성이 어느 정도 높아야하는지는 연구 분야에 따라 다릅니다.

많은 분야에서 변수 A가 변경되는 부분과 변수 A가 변경되지 않은 대조군이 실험의 두 부분을 병렬로 실행하는 것이 일반적이거나 필요합니다. 약은 여전히 ​​바늘로 피험자를 붙이거나 약을 삼키게합니다. 실험에서 A와 B 사이에 상관 관계가 있지만 A와 B '(대조군의 B) 사이에는 상관 관계가없는 경우 원인을 추정 할 수 있습니다.

실험이 불가능하거나 다양한 이유로 (도덕, 윤리, PR, 비용, 시간) 인과 할 수없는 경우 인과 관계를 결론 짓는 다른 방법도 있습니다. 일반적인 방법 중 하나는 공제를 사용하는 것입니다. 댓글에서 예를 들어 : 흡연이 인간에게 암을 유발한다는 것을 증명하기 위해, 우리는 실험이 흡연이 생쥐에서 암을 유발한다는 것을 증명 한 다음, 인간에서 흡연과 암 사이의 상관 관계가 있음을 증명하고, 따라서 그것이 흡연이 인간에게 암을 유발할 가능성이 높음-이 증거는 암이 흡연을 유발한다는 사실을 반증한다면 강화 될 수 있습니다. 인과 관계를 결론 짓는 또 다른 방법은 상관 관계의 다른 원인을 배제하여 인과 관계를 가장 잘 설명하는 상관 관계로 남겨 두는 것입니다.이 방법이 항상 적용 가능한 것은 아닙니다. 상관 관계의 가능한 모든 원인을 제거하는 것이 불가능하기도합니다 (다른 답변에서는 "백도어 경로"라고 함). 흡연 / 암 사례에서, 우리는 아마도이 접근법을 사용하여 폐에 타르가 흡연에 영향을 미친다는 것을 증명할 수 있습니다. 왜냐하면 그 원인이 많지 않기 때문입니다.

인과 관계를 "증명하는"이러한 다른 방법은 단순한 실험만큼 결정적이지 않기 때문에 과학적 관점에서 항상 이상적인 것은 아닙니다. 지구 온난화 논쟁은 반복 가능한 실험으로 아직 입증되지 않은 인과 관계를 해소하는 것이 훨씬 쉬운 방법을 보여주는 훌륭한 예입니다.

코믹 릴리프의 경우 기술적으로 그럴듯하지만 과학적이지 않은 이유 (도덕, 윤리, PR, 비용)로 인해 권장되지 않는 실험의 예는 다음과 같습니다.

phroyd.tumblr.com에서 가져온 이미지


3
조건이 너무 강합니다. 역학에서, 실험을 통제하는 것이 가장 비현실적이며 최악의 비 윤리적- "담배 흡연은 암을 유발
하는가

2
펄이 흡연이 인간에게 암을 유발한다는 것을 보여주는 예는 타르가 흡연과 암 사이의 중간 변수로 여겨지는 정문 방법입니다. "이상적이지 않다"는 것이 무슨 뜻인지 모르겠습니다. 사람들이 담배를 피우고 암에 걸리는지 확인하는 것보다 확실히 이상적입니다!
Neil G

1
@Neil "사람들이 담배를 피우고 암에 걸리는지 확인하는 것보다 확실히 이상적입니다."-목표가 인과 관계를 증명하는 것이라면 나는 매우 동의하지 않습니다. 다른 한편으로, 윤리적 문제를 피하거나 자금을 줄이거 나 소량의 마피아를 피하는 것이 목표라면 더 이상적입니다.
Peter

10

설계가 실험적인지 또는 관찰 적인지에 관계없이, 변수 A와 결과 Y 사이의 연관은 A와 Y 사이에 열린 백도어 경로가없는 경우 A와 Y 사이의 인과 관계를 반영합니다.

실험 설계에서 이것은 노출 또는 치료 할당의 무작위 화에 의해 가장 쉽게 달성됩니다. 이상적인 무작위 배정을 제외하고, 연관 치료 효과는 교환 가능성 (치료 할당은 반-실제 결과와 무관), 양성 등의 가정 하에서 인과 치료 효과의 편견없는 추정치입니다.

참고 문헌

허넌, 로빈스 인과 추론
진주. 통계의 인과 추론 : 개요

추신 : 당신은 주제에 대한 자세한 정보를 위해 인과 추론 및 다음 이름으로 시작할 수 있습니다 : Judea Pearl, Donald Rubin, Miguil Hernan.


여기를보십시오 : en.wikipedia.org/wiki/Correlation_does_not_imply_causation Ash의 진술과 모순됨 : 설계가 실험적인지 또는 관찰 적인지에 관계없이 변수 A와 결과 Y 사이의 연관성은 A와 Y 사이의 인과 관계를 반영합니다. A와 Y 사이에 열린 백도어 경로가 없습니다. 예를 들어 아이스크림 판매, 수영장에서의 Y 사망; 상관 관계가 있지만 온도를 높이거나 낮추는 원인은 온도입니다. 아마도 Ash 는 세 번째 변수에 따라 열린 백도어 경로를 의미 하지만 그의 공식은 명확하지 않습니다.
Karl

귀하의 예에서 뒷문 경로는 계절입니다. 백도어 경로는 세 번째 변수를 의미합니다.
Neil G

인과 연구에 대한 Judea Pearl의 공헌에 익숙하지 않은 사람들을 위해 2011 년 Turing Award를 수상한 Association for Computing Machinery 웹 사이트에서 그의 전기 를 읽는 것이 도움이 될 것 입니다. Pearl은 Amstat News 와의 인터뷰에서 통계 교육 커리큘럼에 인과 추론에 대한 자세한 논의를 포함시킬 필요성에 대해 논의합니다 .
jthetzel

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
gung-Monica Monica 복원

3

변호사 수입 증가와 관련이있는 이혼율 증가를 고려하십시오.

직관적으로 이러한 지표는 서로 관련이 있어야합니다. 더 많은 이혼을 요구하는 커플 (수요)이 많을수록 더 많은 변호사 (공급자)가 가격을 인상합니다.

부부의 추가 수요로 인해 변호사가 가격을 인상 했기 때문에 이혼율이 증가 하면 변호사 수입 증가한 것으로 보입니다 .

아니면 거꾸로입니까? 변호사가 고의적으로 그리고 독립적으로 가격을 인상 한 다음 이혼 광고에 새로운 수입을 썼다면 어떨까요? 그것은 또한 그럴듯한 설명처럼 보입니다.

이 시나리오는 통계 분석이 표시 할 수있는 임의의 세 번째 설명 변수를 보여줍니다. 다음을 고려하세요:

  1. 모든 데이터 포인트를 측정 할 수는 없습니다.
  2. 설명이 필요없는 모든 데이터 포인트를 제거하려고합니다.
  3. 데이터 포인트를 측정하는 경우 왜 제거해야하는지 정당화 할 수 있습니다.

수수께끼가 있습니다. 설명이 아닌 데이터 포인트를 무시하고 정당화하려면 모든 데이터 포인트를 측정 할 수는 없습니다. ( 데이터를 측정하지 않고도 일부 데이터 포인트를 제거 할 수 있지만 최소한 데이터 포인트를 정당화해야합니다.)

제한되지 않은 시스템에서는 원인에 대한 증거가 정확하지 않습니다.


2

A와 B가 서로 연관되어 있고 우연의 일치를 배제한 후 A는 B를 유발하거나 B는 A를 유발하거나 X는 A와 B를 모두 유발할 수 있습니다.

첫 번째 단계는 가능한 메커니즘을 조사하는 것입니다. A가 B를 어떻게 또는 그 반대로 할 수 있는지, 또는 X가 두 가지를 유발할 수있는 다른 원인을 생각할 수 있습니까? (이 시험이 원인을 입증하려는 실험을 수행하는 것보다 저렴하다고 가정합니다). 인과 관계를 보여주는 실험이 가치가있는 위치에있게되기를 바랍니다. 메커니즘을 생각할 수없는 경우 진행할 수 있습니다 (A는 B를 유발하지만 우리는 왜 가능성이 있는지 모릅니다).

이 실험에서는 의심스러운 원인을 마음대로 조작 할 수 있어야합니다 (예 : 원인이 "알약 A 복용"인 경우 일부 사람들은 알약을, 다른 사람들은 그렇지 않음). 그런 다음 일반적인 예방 조치를 취하여 피임약을 복용 한 사람과 모르는 사람을 알면서도 피임약을 무작위로받는 사람을 선택합니다. 당신은 또한 (불편 방 그냥 다른 그룹이 더러운에서 가짜 알약을 느끼는 동안 햇살이 창을 통해 오는 좋은 따뜻한 방에 사람들에게 먹는 피임약 A를주는 동일 실험의 나머지 부분을 유지하려고 수있는 데이터에 영향을). 만약 당신이 유일한 차이점이 그 약이라고 결론을 내렸다면, 그 약을 얻거나받지 않는 원인은 다른 것에 영향을 미치지 않는 무작위 결정이었습니다.


2

gnasher와 Peter가 묘사 한 중재 적 (실험적) 데이터는 인과 관계에 대한 좋은 사례를 만드는 가장 간단한 방법입니다. 그러나 Ash의 답변 만 관찰 데이터를 통해 인과 관계를 추론 할 수 있다고 언급했습니다. 그가 언급 한 백도어 방법 외에도 , 정문 방법 은 관측 데이터와 일부 인과 가정을 기반으로 인과 관계를 설정하는 또 다른 방법입니다. 이들은 유대 진주에 의해 발견되었습니다. 나는 요약하고 이들에 대한 참조를 제공하기 위해 노력 여기 .


0

인과 관계 진술을하려면 랜덤 샘플링과 랜덤 할당이 모두 필요합니다

  • 랜덤 샘플링 : 각 개인은 연구에 대해 동일한 확률을 선택합니다
  • 무작위 할당 : 실험에서 각 개인은 약간 다른 특성을 보여줍니다.

따라서 위의 표본 집단에서 치료군과 대조군을 선택할 때, 비슷한 특성을 가진 사람들의 수가 치료군과 대조군에 모두 있어야합니다.

치료 그룹은 약이 사람들에게 부여되는 그룹이다. 대조군은 약이 주어지지하는 그룹입니다. 피험자에게 약이 제공되지는 않지만 피험자가 제공 되는 위약 그룹을 정의 할 수도 있습니다 .

마지막으로, 치료군에서는 효과가 보이지만 대조군에서는 보이지 않는 경우, 원인을 설정할 수 있습니다.


제 생각에는 위약 그룹이 절대적으로 필요합니다. 또한, 피험자 취급 책임자는 누구가 어느 그룹에 속 하는지 알지 않아야합니다 ( "이중 맹검"). 덜 신뢰할만한 것으로 생각되는 것. 테스트는 쉽지 않습니다.
mafu

무작위 통제 위약 시험은 무작위 통제 시험보다 더 정통하지만, 무작위 통제 시험을 사용하여 인과 관계 진술을 할 수있다
show_stopper

2
"인과 적 진술을하려면 랜덤 샘플링과 랜덤 할당이 모두 필요합니다"– 이것은 사실이 아닙니다. 전면 도어 및 후면 도어 방법을 참조하십시오.
Neil G
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.