인과 이론은 두 변수가 무조건 독립적이지만 조건부 종속적 인 방법에 대한 또 다른 설명을 제공합니다. 나는 인과 이론 전문가가 아니며 아래의 오해를 시정 할 비판에 대해 감사합니다.
설명하기 위해, 내가 사용하는 지시 비순환 그래프 (DAG)를. 이 그래프에서 변수 사이의 모서리 ( )는 직접적인 인과 관계를 나타냅니다. 화살표 머리 ( 또는 )는 인과 관계의 방향을 나타냅니다. 따라서 는 가 직접 유발 한다고 추론 하고 는 가 에 의해 직접 유발 된다고 추론합니다 . 는 통해 를 간접적으로 유발 한다고 추론하는 인과 경로입니다.−←→A→BABA←BABA→B→CACB. 간단히하기 위해 모든 인과 관계가 선형이라고 가정합니다.
먼저, 혼란스러운 편견 의 간단한 예를 생각해보십시오 .
여기에서 간단한 이변 량 회귀 분석은 와 사이의 의존성을 제안합니다 . 그러나 와 사이에는 직접적인 인과 관계가 없습니다 . 대신 둘 다 에 의해 직접 발생 하며 간단한 이변 량 회귀 분석에서 관찰 하면 와 사이의 종속 관계를 유발하여 혼란에 의한 편향이 발생합니다. 그러나 의 다변량 회귀 컨디셔닝 은 바이어스를 제거하고 와 사이의 의존성을 제안하지 않습니다 .XYXYZZXYZXY
둘째, 충돌 바이어스 의 예 (버크 슨 바이어스 또는 버크 소니 언 바이어스라고도하며 선택 바이어스는 특수 유형 임)를 고려하십시오.
여기에서 간단한 이변 량 회귀 분석은 와 사이의 의존성을 나타내지 않습니다 . 이것은 DAG에 동의하는데, 이는 와 사이에 직접적인 인과 관계가 없다고 추정 합니다. 그러나, 에 대한 다 변수 회귀 컨디셔닝 은 와 사이의 의존성을 유도하여 실제로는 존재하지 않을 때 두 변수 사이의 직접적인 인과 관계가 존재할 수 있음을 시사합니다. 다 변수 회귀 분석 에 를 포함 시키면 충돌체 바이어스가 발생합니다.XYXYZXYZ
셋째, 부수적 취소의 예를 고려하십시오.
, 및 가 경로 계수이고 라고 가정 해 봅시다 . 간단한 이변 량 회귀 분석은 와 사이에 의존성이 없음을 나타냅니다 . 비록 직접적인 원인 사실상 의 교란 효과 에 대한 및 또한 효과 상쇄 에 . 에 대한 다변량 회귀 조절 은 와 에 대한 의 혼란 효과를 제거합니다αβγβ=−αγXYXYZXYXYZZXY의 직접적인 영향의 추정을 허용 에 인과 모델 DAG를 가정하면, 올바른.XY
요약:
Confounder 예제 : 와 는 이변 량 회귀에 종속적이며 confounder 에 대한 다변량 회귀 조건에서 독립적입니다 .XYZ
충돌체 예 : 와 는 이변 량 회귀에서 독립적이며 충돌체 에서 다변량 회귀 조절에 의존 합니다.XYZ
들여 쓰기 상쇄 예 : 와 는 이변 량 회귀에서 독립적이며 confounder 에 대한 다 변수 회귀 조건에 의존 합니다.XYZ
토론:
분석 결과는 confounder 예제와 호환되지 않지만 collider 예제 및 부수적 취소 예제와 모두 호환됩니다. 따라서, 잠재적 인 설명은 잘못 다변량 회귀의 입자 가속기 변수를 조절하고 간의 연관 유도 한 것입니다 와 하더라도 의 원인이 아닌 와 의 원인이 아닌 . 양자 택일로, 당신은 제대로 우연히의 진정한 효과를 상쇄했다 당신의 다변량 회귀 분석에서 교란 요인에 조건 수도 에 당신의 bivariable 회귀를.XYXYYXXY
통계 모델에 포함 할 변수를 고려할 때 도움이 될 인과 모델을 구성하기 위해 배경 지식을 사용합니다. 예를 들어, 이전의 고품질 무작위 연구에서 가 유발 하고 가 유발 한다고 결론을 내렸다면 는 와 의 충돌 자이며 통계 모델에서 조건이 아니라고 가정 할 수 있습니다. 나는 단지 것을 직감 한 경우에는 원인 , 그리고 원인 ,하지만 강력한 과학적 증거가 내 직관을 지원하지하기를, 나는 단지 그 약한 가정을 만들 수XZYZZXYXZYZZ의 충돌체이고 및 인간의 직관이 잘못되는 역사를 가지고 같이. 결과적 으로 와의 인과 관계에 대한 추가 조사없이 와 사이의 인과 관계를 추론하는 것에 회의적입니다 . 배경 지식 대신 또는 이와 관련하여 일련의 연관 테스트를 사용하여 데이터에서 인과 모델을 유추하도록 설계된 알고리즘도 있습니다 (예 : PC 알고리즘 및 FCI 알고리즘, Java 구현을위한 TETRAD , PCalg 참조)XYXYZR 구현의 경우). 이 알고리즘은 매우 흥미롭지 만 인과 이론에서 인과 미적분과 인과 모델의 힘과 한계에 대한 강력한 이해가 없다면 그것들에 의존하지 않는 것이 좋습니다.
결론:
인과 관계 모델을 고려한다고해서 조사자가 다른 답변에서 논의 된 통계적 고려 사항을 다루는 것을 용서할 수는 없습니다. 그러나 인과 관계 모델은 통계 모델에서 관찰 된 통계적 의존성과 독립성에 대한 잠재적 인 설명을 생각할 때, 특히 잠재적 인 혼란 자와 콜 리더를 시각화 할 때 유용한 프레임 워크를 제공 할 수 있다고 생각합니다.
더 읽을 거리 :
젤맨, 앤드류 2011. " 인과 통계 학습 ." 오전. J. 사회학 117 (3) (11 월) : 955–966.
그린란드, S, J 펄 및 JM 로빈 1999.“ 역학 연구를위한 인과 관계 다이어그램 .”역학 (캠브리지, 매사추세츠) 10 (1) (1 월) : 37–48.
그린란드, 샌더 2003.“ 인과 모델에서의 정량화 바이 아스 : 고전적 혼란 대 충돌체-분화 바이어스 .”역학 14 (3) (5 월 1 일) : 300-306.
진주, 유대. 1998. 혼란에 대한 통계 테스트가없는 이유, 많은 사람들이 생각하는 이유, 그리고 그들이 거의 옳은 이유 .
진주, 유대. 2009 년 인과 관계 : 모델, 추론과 추론 . 제 2 판 케임브리지 대학 출판부.
Spirtes, Peter, Clark Glymour 및 Richard Scheines. 2001. 원인, 예측 및 검색 , 제 2 판. 브래드 포드 책.
업데이트 : Judea Pearl 은 Amstat News 2012 년 11 월호 에서 인과 추론 이론과 인과 추론을 입문 통계 과정에 통합해야 할 필요성에 대해 설명합니다 . 그의 튜링 상 강의 자격은, "인과 적 추론의 기계화 : A '미니'튜링 테스트와 이상은"관심에 있습니다.