나는 상관 관계가 원인이 아니라는 것을 이해한다 . 두 변수 사이에 높은 상관 관계가 있다고 가정합니다. 이 상관 관계가 실제로 인과 관계 때문인지 어떻게 확인합니까? 또는 어떤 조건 하에서 실험 데이터를 사용하여 둘 이상의 변수 간의 인과 관계를 추론 할 수 있습니까?
X
와 Y
그 중 하나를 다른 하나의 원인으로 선택하여 책임감을 최소화하고 운명 감을 극대화하십시오.
나는 상관 관계가 원인이 아니라는 것을 이해한다 . 두 변수 사이에 높은 상관 관계가 있다고 가정합니다. 이 상관 관계가 실제로 인과 관계 때문인지 어떻게 확인합니까? 또는 어떤 조건 하에서 실험 데이터를 사용하여 둘 이상의 변수 간의 인과 관계를 추론 할 수 있습니까?
X
와 Y
그 중 하나를 다른 하나의 원인으로 선택하여 책임감을 최소화하고 운명 감을 극대화하십시오.
답변:
2 개의 변수가 서로 관련이있는 이유는 변경 사항이 세 번째 변수에 연결되어 있기 때문입니다. 다른 가능성있는 이유는 우연 (상관 관계에 대해 충분한 비 상관 변수를 테스트하는 경우 일부는 상관 관계를 나타냄) 또는 여러 단계를 포함하는 매우 복잡한 메커니즘입니다.
다음과 같은 예는 http://tylervigen.com/ 을 참조하십시오 .
A-> B의 원인을 자신있게 진술하려면 변수 A를 제어하고 다른 변수에 영향을 미치지 않는 실험이 필요합니다. 그런 다음 변수를 변경하면 A와 B의 상관 관계가 여전히 존재하는지 측정합니다.
거의 모든 실제 응용 분야에서 다른 변수 (종종 미지의) 변수에도 영향을 미치지 않는 것은 거의 불가능하므로, 가능한 최선의 원인은 인과 관계가 없음을 증명하는 것입니다.
인과 관계를 밝히기 위해서는 두 변수가 인과 관계를 가졌다는 가설부터 시작하고, 가설을 반증하기 위해 실험을 사용하고, 실패하면 가설이 사실이라고 확신 할 수 있습니다. 확실성이 어느 정도 높아야하는지는 연구 분야에 따라 다릅니다.
많은 분야에서 변수 A가 변경되는 부분과 변수 A가 변경되지 않은 대조군이 실험의 두 부분을 병렬로 실행하는 것이 일반적이거나 필요합니다. 약은 여전히 바늘로 피험자를 붙이거나 약을 삼키게합니다. 실험에서 A와 B 사이에 상관 관계가 있지만 A와 B '(대조군의 B) 사이에는 상관 관계가없는 경우 원인을 추정 할 수 있습니다.
실험이 불가능하거나 다양한 이유로 (도덕, 윤리, PR, 비용, 시간) 인과 할 수없는 경우 인과 관계를 결론 짓는 다른 방법도 있습니다. 일반적인 방법 중 하나는 공제를 사용하는 것입니다. 댓글에서 예를 들어 : 흡연이 인간에게 암을 유발한다는 것을 증명하기 위해, 우리는 실험이 흡연이 생쥐에서 암을 유발한다는 것을 증명 한 다음, 인간에서 흡연과 암 사이의 상관 관계가 있음을 증명하고, 따라서 그것이 흡연이 인간에게 암을 유발할 가능성이 높음-이 증거는 암이 흡연을 유발한다는 사실을 반증한다면 강화 될 수 있습니다. 인과 관계를 결론 짓는 또 다른 방법은 상관 관계의 다른 원인을 배제하여 인과 관계를 가장 잘 설명하는 상관 관계로 남겨 두는 것입니다.이 방법이 항상 적용 가능한 것은 아닙니다. 상관 관계의 가능한 모든 원인을 제거하는 것이 불가능하기도합니다 (다른 답변에서는 "백도어 경로"라고 함). 흡연 / 암 사례에서, 우리는 아마도이 접근법을 사용하여 폐에 타르가 흡연에 영향을 미친다는 것을 증명할 수 있습니다. 왜냐하면 그 원인이 많지 않기 때문입니다.
인과 관계를 "증명하는"이러한 다른 방법은 단순한 실험만큼 결정적이지 않기 때문에 과학적 관점에서 항상 이상적인 것은 아닙니다. 지구 온난화 논쟁은 반복 가능한 실험으로 아직 입증되지 않은 인과 관계를 해소하는 것이 훨씬 쉬운 방법을 보여주는 훌륭한 예입니다.
코믹 릴리프의 경우 기술적으로 그럴듯하지만 과학적이지 않은 이유 (도덕, 윤리, PR, 비용)로 인해 권장되지 않는 실험의 예는 다음과 같습니다.
설계가 실험적인지 또는 관찰 적인지에 관계없이, 변수 A와 결과 Y 사이의 연관은 A와 Y 사이에 열린 백도어 경로가없는 경우 A와 Y 사이의 인과 관계를 반영합니다.
실험 설계에서 이것은 노출 또는 치료 할당의 무작위 화에 의해 가장 쉽게 달성됩니다. 이상적인 무작위 배정을 제외하고, 연관 치료 효과는 교환 가능성 (치료 할당은 반-실제 결과와 무관), 양성 등의 가정 하에서 인과 치료 효과의 편견없는 추정치입니다.
허넌, 로빈스 인과 추론
진주. 통계의 인과 추론 : 개요
추신 : 당신은 주제에 대한 자세한 정보를 위해 인과 추론 및 다음 이름으로 시작할 수 있습니다 : Judea Pearl, Donald Rubin, Miguil Hernan.
변호사 수입 증가와 관련이있는 이혼율 증가를 고려하십시오.
직관적으로 이러한 지표는 서로 관련이 있어야합니다. 더 많은 이혼을 요구하는 커플 (수요)이 많을수록 더 많은 변호사 (공급자)가 가격을 인상합니다.
부부의 추가 수요로 인해 변호사가 가격을 인상 했기 때문에 이혼율이 증가 하면 변호사 수입 이 증가한 것으로 보입니다 .
아니면 거꾸로입니까? 변호사가 고의적으로 그리고 독립적으로 가격을 인상 한 다음 이혼 광고에 새로운 수입을 썼다면 어떨까요? 그것은 또한 그럴듯한 설명처럼 보입니다.
이 시나리오는 통계 분석이 표시 할 수있는 임의의 세 번째 설명 변수를 보여줍니다. 다음을 고려하세요:
수수께끼가 있습니다. 설명이 아닌 데이터 포인트를 무시하고 정당화하려면 모든 데이터 포인트를 측정 할 수는 없습니다. ( 데이터를 측정하지 않고도 일부 데이터 포인트를 제거 할 수 있지만 최소한 데이터 포인트를 정당화해야합니다.)
제한되지 않은 시스템에서는 원인에 대한 증거가 정확하지 않습니다.
A와 B가 서로 연관되어 있고 우연의 일치를 배제한 후 A는 B를 유발하거나 B는 A를 유발하거나 X는 A와 B를 모두 유발할 수 있습니다.
첫 번째 단계는 가능한 메커니즘을 조사하는 것입니다. A가 B를 어떻게 또는 그 반대로 할 수 있는지, 또는 X가 두 가지를 유발할 수있는 다른 원인을 생각할 수 있습니까? (이 시험이 원인을 입증하려는 실험을 수행하는 것보다 저렴하다고 가정합니다). 인과 관계를 보여주는 실험이 가치가있는 위치에있게되기를 바랍니다. 메커니즘을 생각할 수없는 경우 진행할 수 있습니다 (A는 B를 유발하지만 우리는 왜 가능성이 있는지 모릅니다).
이 실험에서는 의심스러운 원인을 마음대로 조작 할 수 있어야합니다 (예 : 원인이 "알약 A 복용"인 경우 일부 사람들은 알약을, 다른 사람들은 그렇지 않음). 그런 다음 일반적인 예방 조치를 취하여 피임약을 복용 한 사람과 모르는 사람을 알면서도 피임약을 무작위로받는 사람을 선택합니다. 당신은 또한 (불편 방 그냥 다른 그룹이 더러운에서 가짜 알약을 느끼는 동안 햇살이 창을 통해 오는 좋은 따뜻한 방에 사람들에게 먹는 피임약 A를주는 동일 실험의 나머지 부분을 유지하려고 수있는 데이터에 영향을). 만약 당신이 유일한 차이점이 그 약이라고 결론을 내렸다면, 그 약을 얻거나받지 않는 원인은 다른 것에 영향을 미치지 않는 무작위 결정이었습니다.
인과 관계 진술을하려면 랜덤 샘플링과 랜덤 할당이 모두 필요합니다
따라서 위의 표본 집단에서 치료군과 대조군을 선택할 때, 비슷한 특성을 가진 사람들의 수가 치료군과 대조군에 모두 있어야합니다.
치료 그룹은 약이 사람들에게 부여되는 그룹이다. 대조군은 약이 주어지지하는 그룹입니다. 피험자에게 약이 제공되지는 않지만 피험자가 제공 되는 위약 그룹을 정의 할 수도 있습니다 .
마지막으로, 치료군에서는 효과가 보이지만 대조군에서는 보이지 않는 경우, 원인을 설정할 수 있습니다.