통계와 인과 추론?


51

1984 년 논문 "통계 및 인과 추론" 에서 Paul Holland는 통계에서 가장 근본적인 질문 중 하나를 제기했습니다.

인과 관계에 대한 통계 모델은 무엇을 말할 수 있습니까?

이것은 그의 좌우명을 이끌어 냈습니다.

조작없이 발생하는 원인 없음

인과 관계를 고려한 실험에 대한 제한의 중요성을 강조했습니다. Andrew Gelman도 비슷한 지적을합니다 .

"무언가를 바꿀 때 어떤 일이 일어나는지 알아 내려면 그것을 바꿀 필요가있다."... 수동적 인 관찰에서 결코 찾을 수없는 시스템을 교란하면서 배운 것들이있다.

그의 아이디어는 이 기사에 요약되어있다 .

통계 모델에서 인과 추론을 할 때 고려해야 할 사항은 무엇입니까?


2
좋은 질문 : 또한 상관 관계와 인과 관계에 대한이 관련 질문을 참조 stats.stackexchange.com/questions/534/...
제로미 Anglim


5
할 말이 많다. 그러나 Pearl의 책 "Causality"(2002, 그러나 최신 2 판) 또는 Hernan and Robins의 "Causal Inference"(2015, 검색하면 무료 전자 초안)를 읽을 수 있습니다.

답변:


28

이것은 광범위한 질문이지만 상자, 헌터 및 헌터 인용문이 사실이라고 생각합니다.

  1. 실험 설계의 품질 :

    • 무작위 추출, 표본 크기, 혼란스러운 사람들의 통제, ...
  2. 디자인 구현의 품질 :

    • 프로토콜 준수, 측정 오류, 데이터 처리, ...
  3. 디자인을 정확하게 반영하는 모델의 품질 :

    • 블로킹 구조가 정확하게 표현되고 적절한 자유도가 효과와 관련이 있으며 견적자는 편견이 없으며 ...

명백한 진술의 위험에 처해 나는 각각의 요점을 명중하려고 노력할 것이다.

  1. 통계의 큰 하위 필드이지만 가장 기본적인 형태로 인과 추론을 할 때 치료에 할당되지 않은 동일한 환경에서 모니터링되는 동일한 단위로 시작하는 것이 이상적이라고 생각합니다. 그런 다음 치료 후 그룹 간의 체계적인 차이는 치료에 논리적으로 기인합니다 (우리는 원인을 추론 할 수 있음). 그러나 세계는 훌륭하지 않으며 치료 전에 단위가 다르고 실험 중 환경이 완벽하게 통제되지는 않습니다. 그래서 우리는 "우리가 할 수있는 것을 통제하고 우리가 할 수없는 것을 무작위 화한다"는 것은 우리가 통제하거나 무작위 화 한 혼란에 의한 체계적인 편견이 없도록 보장하는 데 도움이된다. 한 가지 문제는 실험이 어렵고 (불가능하기 때문에) 비싸고, 비용을 고려하여 가능한 한 세 심하게 통제 된 환경에서 최대한 많은 정보를 효율적으로 추출하기 위해 다양한 디자인이 개발되었다는 것입니다. 이들 중 일부는 매우 엄격하며 (예 : 의약에서 이중 맹검, 무작위 배정, 위약 대조 시험) 다른 경우는 그다지 많지 않습니다 (예 : 다양한 형태의 '과학적 실험').

  2. 또한 큰 문제이며 통계학자가 일반적으로 생각하지 않는 문제입니다. 적용된 통계 작업에서 데이터에서 발견 된 '효과'가 데이터 수집 또는 처리 불일치의 가짜 결과 인 발생률을 기억할 수 있습니다. 또한 이러한 문제로 인해 실제 인과 관계 영향에 대한 정보가 얼마나 자주 손실되는지 궁금합니다 (응용 과학 분야의 학생들은 일반적으로 데이터가 손상 될 수있는 방법에 대해 거의 또는 전혀 훈련이 없다고 생각합니다) ...)

  3. 또 다른 큰 기술 주제이며 객관적인 인과 추론에 필요한 또 다른 단계입니다. 디자인 군중이 디자인과 모델을 함께 개발하기 때문에 어느 정도까지는 처리됩니다 (모델의 추론이 목표이므로 추정기의 속성이 디자인을 주도합니다). 그러나 '실제 세계'에서는 교과서가 아닌 디자인의 실험 데이터를 분석 한 다음 적절한 컨트롤과 모델에 어떻게 들어가야하는지, 그리고 관련 정도에 대해 열심히 생각해야하기 때문에 지금까지만 가능합니다. 위반을 조정하는 방법이 아니라면 추정자가 나머지 위반에 대해 얼마나 강력한 지에 대한 자유가 있고 가정이 충족되는지 여부 ...

어쨌든, 위의 일부는 모델에서 인과 적 추론을 고려할 때 고려해야 할 사항이 있습니다. 큰 것을 잊었습니까?


3
포인트 2를위한 큰 장점 하나입니다. 인간 대상 보호 교육을 거치는 것 외에는 데이터 수집 및 저장에 관한 아주 작은 교육을받은 적이 없습니다. 데이터 수집을 올바르게하는 것이 분석보다 훨씬 중요합니다.
매트 파커

나도 대답하고 싶지만 Kingsford의 말에 더할 것이 남아있을 것 같습니다.
Joris Meys

7

위의 탁월한 답변 외에도 인과 관계를 입증하는 데 더 가까운 통계 방법이 있습니다. 종속 변수 이전에 발생하는 하나의 독립 변수가 인과 관계에 영향을 미치는지를 입증하는 것은 Granger Causality입니다. 다음 링크에서 쉽게 따라 할 수있는 방법으로이 방법을 소개합니다.

http://www.slideshare.net/gaetanlion/granger-causality-presentation

또한이 방법을 경쟁 거시 경제 이론의 테스트에도 적용합니다 : http://www.slideshare.net/gaetanlion/economic-theory-testing-presentation

이 방법은 완벽하지 않습니다. 특정 이벤트가 다른 이벤트보다 먼저 발생하고 해당 이벤트가 일관된 방향 관계를 갖는 것으로 확인됩니다. 이것은 진정한 인과 관계를 수반하는 것처럼 보이지만 항상 그런 것은 아닙니다. 수탉 아침 전화는 태양을 일으키지 않습니다.


4

인과 관계에 대한 통계 모델은 무엇을 말할 수 있습니까? 통계 모델에서 인과 추론을 할 때 고려해야 할 사항은 무엇입니까?

가장 먼저 확인해야 할 것은 순전히 통계 모델에서 인과 적 추론을 할 수 없다는 것입니다. 인과 적 가정이없는 인과 관계에 대한 통계 모델은 없다. 즉, 인과 추론 을하려면 인과 모델이 필요합니다 .

ZXY

여기에 이미지 설명을 입력하십시오

P(Y|do(X))=P(Y|X)XY

여기에 이미지 설명을 입력하십시오

X

이것은 더욱 복잡해질 수 있습니다. 측정 오류 문제가있을 수 있으며 피험자가 다른 문제 중에서 연구를 중단하거나 지시를 따르지 않을 수 있습니다. 그러한 것들이 추론으로 진행되는 방법과 관련하여 가정해야합니다. "순전히"관측 데이터를 사용하면 더 문제가 될 수 있습니다. 일반적으로 연구원들은 데이터 생성 프로세스에 대해 잘 모르기 때문입니다.

따라서 모델에서 인과 적 추론을 도출하려면 통계적 가정뿐만 아니라 가장 중요한 인과 적 가정을 판단해야합니다. 인과 분석에 대한 일반적인 위협은 다음과 같습니다.

  • 불완전하고 부정확 한 데이터
  • 대상 인과 관심 양이 잘 정의되지 않았습니다 (확인하려는 인과 효과는 무엇입니까? 대상 모집단은 무엇입니까?)
  • 혼란 스러움
  • 선택 바이어스 (자체 선택, 절단 된 샘플)
  • 측정 오류 (소음뿐만 아니라 혼란을 유발할 수 있음)
  • 잘못된 사양 (예 : 잘못된 기능적 형태)
  • 외부 유효성 문제 (타겟 모집단에 대한 잘못된 유추)

때때로 이러한 문제가 없다는 주장 (또는 이러한 문제를 해결 한 주장)은 연구 자체의 설계에 의해 뒷받침 될 수 있습니다. 실험 데이터가 일반적으로 더 신뢰할 수있는 이유입니다. 그러나 때때로 사람들은 이론이나 편의를 위해 이러한 문제를 제거합니다. 이론이 사회 과학 에서처럼 부드러 우면 결론을 액면가로 취하기가 더 어려울 것이다.

백업 할 수없는 가정이 있다고 생각 될 때, 그 가정이 그러한 가정에 대한 그럴듯한 위반에 얼마나 민감한 지 평가해야합니다.이를 보통 민감도 분석이라고합니다.


점선으로 된 양방향 화살표를 추가 노드의 두 개의 단방향 솔리드 화살표로 바꾸는 것이 동일합니까?
Taylor

@Taylor 예, 잠재 된 (관찰되지 않은) 추가 노드입니다.
Carlos Cinelli
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.