유대 진주의 이유 : 왜 그는 통계를 강타합니까?


79

나는 유대 진주에 의해 왜 책을 읽고 있는데, 그것은 내 피부 아래에있다 1 . 특히, 통계는 결코 인과 관계를 조사 할 수없고, 인과 관계에 관심이 없으며, 통계는 "모형이되었다"는 짚맨 논쟁 을 함으로써 무조건적으로 "고전적인"통계를 강타 하고있는 것으로 보인다. 맹검 데이터 감소 기업 ". 그의 책에서 통계는 못 생겼다.

예를 들면 다음과 같습니다.

통계 학자들은 변수가 무엇을 통제해야하는지, 통제하지 말아야하는지에 대해 상당히 혼란스러워했기 때문에 기본 관행은 측정 할 수있는 모든 것을 통제하는 것이 었습니다. [...] 따라야하는 편리하고 간단한 절차이지만, 낭비가 많고 오류가 있습니다. 인과 혁명의 핵심 성과는이 혼란을 종식시키는 것이었다.

동시에, 통계 학자들은 인과 관계에 대해 전혀 이야기하기를 싫어한다는 의미에서 통제를 크게 과소 평가한다 ...]

그러나 인과 모델은 영원히 같은 통계에 있습니다. 우리는 본질적으로 하나의 변수가 원인이고 다른 변수가 효과 라고 가정하기 때문에 회귀 모델 본질적으로 인과 모델로 사용할 있습니다. .

다른 인용문 :

특히 통계 학자들이이 퍼즐 [몬티 홀 문제]을 이해하기 어렵다는 것을 발견 한 것은 당연합니다. RA Fisher (1922)가 말한 것처럼 "데이터 감소"와 데이터 생성 프로세스를 무시하는 데 익숙합니다.

이 생각 나게 응답 앤드류 겔만가 쓴 유명한 XKCD 만화 베이 즈 및 frequentists에 "아직도, 나는 전체 만화는 맹목적으로 얕은 교과서의 조언을 따르는 빈도주의 통계에 합리적인 베이지안를 비교하는 것이 불공정하다고 생각 "

내가 그것을 인식으로, 유대 진주 책에서 존재의 단어의 허위 진술의 양은 내가 (지금까지 내가 조직하고 과학적인 가설 테스트의 유용하고 흥미로운 방법으로 인식 인과 추론 여부를 궁금해했다 2 ) 의문이다.

질문 : 유대 진주가 통계를 잘못 표현한다고 생각하십니까? 그렇다면 왜 그렇습니까? 인과 추론 사운드를 원래보다 크게 만드는 것입니까? 인과 적 추론이 우리의 모든 생각을 바꾸는 큰 R의 혁명이라고 생각하십니까?

편집하다:

위의 질문은 나의 주요한 문제이지만, 분명히 의견이 있으니, 다음의 구체적인 질문에 답하십시오. (1) "Causation Revolution"의 의미는 무엇입니까? (2) "정통"통계와 어떻게 다릅니 까?

1. 또한 그는 때문에 그런 겸손한 사람.
2. 나는 통계적인 의미가 아니라 과학적으로 의미한다.

편집 : 앤드류 겔먼 (Andrew Gelman)은 Judea Pearls 책 에이 블로그 게시물 을 썼습니다 . 다음은 두 따옴표입니다.

이 책의 66 페이지에서 Pearl과 Mackenzie는 통계가“모델 맹인 데이터 축소 기업이되었다”고 말합니다. 대체 무슨 소리 야? 저는 통계 학자입니다. 정치에서 독물학에 이르기까지 30 년 동안 통계를 해왔습니다. “모델-블라인드 데이터 축소”? 그냥 헛소리 야 우리는 항상 모델을 사용합니다.

그리고 또 하나 :

보기. 나는 복수주의 딜레마에 대해 알고있다. 한편으로 Pearl은 그의 방법이 이전의 모든 것보다 낫다고 믿습니다. 좋아. 그와 다른 많은 사람들을 위해 인과 추론을 연구하는 데 가장 좋은 도구입니다. 동시에, 다원주 의자 또는 과학사 학생으로서, 우리는 케이크를 굽는 많은 방법이 있다는 것을 알고 있습니다. 실제로 자신에게 적합하지 않은 접근 방식을 존중하는 것은 어려운 일이며, 어떤 시점에서는 실제 사람들이 이러한 방법을 사용하여 실제 문제를 해결한다는 사실을 물러서야합니다. 예를 들어, p- 값을 사용하여 의사 결정을 내리는 것은 끔찍하고 논리적으로 일관성이없는 아이디어로 많은 과학적 재앙으로 이어졌습니다. 동시에 많은 과학자들은 p- 값을 학습 도구로 사용합니다. 나는 그것을 인식한다. 비슷하게, Pearl은 통계, 계층 적 회귀 모델링, 상호 작용, 사후 층화, 기계 학습 등의 장치가 인과 추론의 실제 문제를 해결한다는 것을 인식하는 것이 좋습니다. Pearl과 같은 우리의 방법은 또한 GIGO!를 망칠 수 있으며 아마도 우리 모두가 그의 접근 방식으로 전환하는 것이 더 나을 것입니다. 그러나 우리가하는 일에 대해 부정확 한 진술을 할 때 도움이되지 않는다고 생각합니다.


41
선형 회귀는 원인 모델이 아닙니다. 단순 선형 회귀는 페어 와이즈 상관 과 동일 하지만 유일한 차이점은 표준화 입니다. 따라서 회귀가 인과 적이라고 말하면 상관 관계에서도 마찬가지입니다. 상관 원인이 있습니까? 회귀를 사용하면 임의의 변수간에 우발적 인 관계를 예측할 수 있습니다 (많은 "중요한"결과가 우연히 발생 함).

8
통계에서 인과 관계에 대한 추론에 대한 접근법에 대한 의견 불일치가 Pearl, Rubin, Heckman과 다른 사람들 사이에서 가장 큰 장점을 보였으며, Pearl의 어조가 점점 더 거칠어 졌다고 생각합니다. 그가 제공해야 할 진정한 통찰력에서 당신을 산만하게하지 마십시오. 그의 초기 책 인과 관계를 읽으면 피부 아래로 떨어집니다.
CloseToC

7
@CloseToC 나는 Pearl, Rubin 및 Heckman이 모두 동일한 프레임 워크 (즉, 논리적으로 동등한 프레임 워크에서 stats.stackexchange.com/questions/249767/… 참조 ) 내에서 모두 작동하는 방식으로 추가 되므로 분쟁이 다릅니다. "선형 회귀는 인과 관계 모델"과 같은 주장에서 비롯됩니다.
카를로스 Cinelli

9
나는 그 책에 스스로 화를 냈다. 펄이 책을 쓰도록 도와 준 기자 나 펄 자신이 통계학자가 아닌지 궁금해하는 몇 가지 거짓된 통계적 주장이 있습니다 (지금은 인용 할 수없는 저의 노트가있는 책은 집에 있습니다). (말할 필요도없이, 나는 존경받는 과학자의 연구에서 그러한 뻔뻔스러운 실수를 발견 한 것에 매우 놀랐습니다.) 그의 논문은 훨씬 더 좋았습니다. 비록 아무도 진주를 겸손하다고 비난하지는 않을 것입니다 ...
Richard Hardy

15
나는이 실이 이미 함께 얽히고 있다는 것에 약간의 우려를 가지고있다. (a) 매우 똑똑한 사람의 특정 책 (b) 똑똑한 사람의 성격과 토론 스타일 (c) 특정 견해가 정확하고 과장된 것인지 아닌지.
Nick Cox

답변:


59

나는 진주의 어조가 거만하고 "통계 학자"라는 그의 특성이 단순하고 모 놀리 식이라는 것에 전적으로 동의한다. 또한 나는 그의 글이 특히 명확하지 않다.

그러나 나는 그가 요점을 가지고 있다고 생각합니다.

인과 추론은 내 공식 교육 (MSc)의 일부가 아니었다. 내가 주제에 가장 근접한 것은 실험 설계에서 선택적인 과정이었다. Pearl 's Book Causality 는이 아이디어의 반박에 대한 첫 노출이었습니다. 분명히 나는 ​​모든 통계 학자와 커리큘럼에 대해 말할 수는 없지만, 내 자신의 관점에서 인과 적 추론이 통계에서 우선 순위가 아니라는 Pearl의 관찰에 동의합니다.

통계학자가 때때로 필요한 것보다 더 많은 변수를 제어하는 ​​것은 사실이지만, (적어도 내 경험상) 오류가 거의 발생하지 않습니다.

이것은 또한 2010 년 통계학 석사 학위를 취득한 후 보유한 믿음입니다.

그러나 매우 잘못되었습니다. 공통 효과 (도서에서 "collider"라고 함)를 제어 할 때 선택 바이어스를 도입 할 수 있습니다. 이 실현은 나에게 놀랍고, 인과 가설을 그래프로 표현하는 것이 유용하다는 것을 실제로 확신시켰다.

편집 : 선택 편견에 대해 자세히 설명했습니다. 이 주제는 매우 미묘하다. 나는 인과 관계 다이어그램 에서 edX MOOC를 숙고 할 것을 강력히 추천한다. 이는 선택 바이어스 전용 장을 가진 그래프에 대한 아주 좋은 소개이다.

장난감의 예를 들어, 책에서 인용 한이 논문 을 다음과 같이 표현 하면, 변수 A = 매력, B = 미용, C = 역량을 고려하십시오. B와 C가 일반 인구에서 인과 관계가 없다고 가정하자 (즉, 아름다움은 역량을 유발하지 않으며, 역량은 아름다움을 유발하지 않으며, 아름다움과 역량은 공통된 원인을 공유하지 않음). 또한 B 또는 C 중 하나가 매력적 이기에 충분하고, 즉 A가 충돌 자라고 가정하자. A에 대한 컨디셔닝은 B와 C 사이의 가짜 연관을 만듭니다.

더 심각한 예는 "출산 역설"인데, 임신 중 산모의 흡연 (S)이 저체중 (U) 인 경우 아기의 사망률 (M)을 감소시키는 것으로 보입니다. 제안 된 설명은 선천적 결손 (D)이 또한 저체중을 유발하고 사망에 기여한다는 것입니다. 상응하는 인과 관계 다이어그램은 {S-> U, D-> U, U-> M, S-> M, D-> M}이며, 여기서 U는 충돌체이다. 그것에 컨디셔닝은 가짜 연관성을 소개합니다. 이 배후의 직관은 어머니가 흡연자라면 저체중아가 결손으로 인한 것 같지 않다는 것입니다.


8
+1. 선택 바이어스를 도입하는 방법에 대해 조금 더 자세히 설명해 주시겠습니까? 아마도 약간의 구체적인 예가 대부분의 독자들에게 분명히 해 줄 것입니다.
amoeba

2
편집 해 주셔서 감사합니다. 이것은 매우 명확한 예입니다.
amoeba

흡연자 아기의 저체중 체중에 대한 직감이 맞습니까?
Malady

@ Malandy :이 모델은 데이터와 일치하며 직관적입니다. 그것이 맞는지 모르겠습니다.
mitchus


71

당신의 질문은 진주의 말을 반영합니다!

간단한 선형 회귀 분석은 본질적으로 인과 관계 모델입니다

아닙니다. 선형 회귀는 인과 모델이 아닌 통계 모델입니다. 가 다변량 정규 분포를 갖는 랜덤 변수 라고 가정 합니다. 그런 다음 선형 회귀를 사용하여 선형 기대치 , , , 등을 정확하게 추정 할 수 있지만 그 양이 인과 관계가 있는지를 말하는 것은 없습니다.Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

반면에 선형 구조식은 인과 관계 모델입니다. 그러나 첫 번째 단계는 통계적 가정 (관찰 된 공동 확률 분포에 대한 제약)과 인과 가정 (인과 모델에 대한 제약)의 차이를 이해하는 것입니다.

유대 진주가 통계를 잘못 표현한다고 생각하십니까? 그렇다면 왜 그렇습니까?

우리는 매일 이러한 오해를 보게되므로 그렇게 생각하지 않습니다. 물론, 일부 통계 학자들은 인과 추론을 다루기 때문에 Pearl은 몇 가지 일반화를하고 있습니다 (Don Rubin은 잠재적 결과를 촉진하는 선구자였습니다. 또한 통계 학자이기도합니다!). 그러나 그는 전통적인 통계 교육의 많은 부분이 인과 관계를 피하고 인과 관계의 영향 을 공식적으로 정의 하기까지한다고 말하고있다 .

이를 명확하게하기 위해 통계 학자 / 경제학자에게 정기적 인 훈련을 통해 개입하면 의 예상 값을 수학적으로 정의하도록 요청하면 아마도 쓸 것입니다 (여기의 예 참조) ! 그러나 그것은 관측 적 양이며, 그것이 인과 관계 효과 를 정의 하는 방법이 아닙니다 ! 다른 말로하면, 현재 전통적인 통계 과정 만있는 학생은이 양을 수학적으로 적절하게 정의 할 수있는 능력 ( 또는 ) 조차 부족 합니다. 인과 관계의 구조적 / 반상 적 이론 !YXE[Y|X] E [ Y x ] E [ Y | d o ( x ) ]E[Yx]E[Y|do(x)]

이 책에서 인용 한 인용문도 훌륭한 예입니다. 전통적인 통계 서적에서 공감자가 무엇인지에 대한 올바른 정의 나 관찰 연구에서 공변량을 조정해야 할 때 또는 조정하지 않아야 할시기에 대한 지침을 찾을 수 없습니다. 일반적으로, "공변량이 치료 및 결과와 관련이있는 경우 조정해야합니다"와 같은 "상관 관계 기준"이 표시됩니다. 이 혼동의 가장 주목할만한 사례 중 하나는 심슨의 역설 (Simpson 's Paradox) 에서 나타납니다. 두 가지 반대 부호의 추정치에 직면했을 때, 어느 것이 사용해야합니까? 대답은 물론 인과 모델에 달려 있습니다.

그리고이 질문이 끝났다고 말할 때 진주는 무엇을 의미합니까? 회귀를 통한 간단한 조정의 경우 백도어 기준을 참조합니다 (자세한 내용은 여기 참조) . 그리고 간단한 조정을 넘어 일반적으로 식별하기 위해, 우리는 이제 주어진 준마 코비안 DAG에 대한 인과 관계 효과를 식별하기위한 완전한 알고리즘을 가지고 있음을 의미합니다 .

여기서 또 다른 언급은 가치가 있습니다. 실험 통계 (전통적인 통계가 실험 설계와 관련하여 많은 중요한 작업을 수행 했음에도 불구하고)에도 불구 하고 하루가 지나도 인과 관계 모델이 필요합니다 . 실험은 또한, 대부분의 시간을 당신이 분석 한 특정 집단에 실험 결과를 제한하고 싶지 않아 ... 선택 바이어스에서, 후속의 손실, 준수의 부족으로 고생 할 수 있습니다, 당신은 당신을 일반화 할 더 넓은 / 다른 인구에 대한 실험 결과. 여기서 다시 물을 수 있습니다 : 당신은 무엇을 조정해야합니까? 그러한 추정을 허용하기에 충분한 데이터와 실질적인 지식이 있습니까? 이것들은 모두 인과 적 개념이므로 인과 적 가정을 공식적으로 표현하고 그들이 원하는 것을 할 수있을만큼 충분한 지 확인하는 언어가 필요합니다!

요약하면 이러한 오해는 통계 및 계량 경제학에 널리 퍼져 있으며 Cross Validated에는 다음과 같은 몇 가지 예가 있습니다.

그리고 더 많은.

인과 적 추론이 우리의 모든 생각을 바꾸는 큰 R의 혁명이라고 생각하십니까?

많은 과학 분야의 현재 상황, 우리가 얼마나 발전했는지, 얼마나 빠르게 변화하고 있는지, 그리고 여전히 얼마나 많은 일을 할 수 있는지를 고려할 때 이것이 실제로 혁명이라고 말할 것입니다.

추신 : Pearl은 UCLA의 인과 관계 블로그에서이 토론에 관심이있는 두 개의 게시물을 제안했습니다. 여기 여기 에서 게시물을 찾을 수 있습니다 .

PS 2 : 1 월 새로운 편집에서 언급 한 것처럼 Andrew Gelman은블로그에 새로운 게시물 을가지고있습니다. Pearl은 Gelman의 블로그에 대한 토론 외에도 트위터 (아래)에서도 답변했습니다.

#Bookofwhy에 대한 Gelman의 검토는 광범위한 통계 연구자들을 마비시키는 태도를 나타 내기 때문에 관심을 가져야합니다. 내 초기 반응은 이제 https://t.co/mRyDcgQtEc에 게시됩니다. 관련 게시물 :https://t.co/xUwR6eCGrZhttps://t.co/qwqV3oyGUy

— Judea Pearl (@yudapearl) 2019 년 1 월 9 일


4
감사합니다. 그러나 간단하게 작성하면 E [Y | X]뿐만 아니라 E [X | Y]도 계산할 수 있지만 DAG에는 X ← Y뿐만 아니라 X → Y도 쓸 수 있습니다. 어떤면 에서든 과학적 가설이나 모델로 시작 해야합니다 . 나의 가설, 모델 – 나의 선택. 내가 무언가를 할 수 있다는 사실이 내가 해야한다는 것을 의미하지는 않습니다.
1 월

3
1 월 그것은 당신이해야 할 것을 의미하지는 않습니다. 여기서 요점은 단지 당신이 추정하고 싶은 것 (인과 적 추정치)을 정확하게 표현하고, 인과 적 가정을 정확하게 표현하고 (인과 적 통계적 가정의 구별을 분명히 함), 점검하는 것에 관한 것입니다. 인과 적 가정의 논리적 의미와 인과 적 가정 + 데이터가 쿼리에 응답하기에 충분한 지 여부를 이해할 수 있습니다.
카를로스시 넬리

3
@January는 관측 연구를했고 가 에 미치는 인과 적 영향을 추정하고 싶다고 말합니다 . 회귀 분석에 포함 할 공변량을 어떻게 결정합니까? YXY
카를로스 Cinelli 10

4
나는 그렇게 생각한다 : 당신의 평균 통계학자가 통제 된 실험으로부터의 인과 추론에 정통하고 인과 관계와 혼동의 상관 관계가 없을 가능성이 있음을 시사하는 것은 완전히 불공평하지는 않다. 데이터. 나는 인용문의 맥락으로 마지막을 취한다 (나는 책을 읽지 않았다). 그리고이 게시물의 일부 독자는 이해할 수없는 것입니다.
Scortchi

5
@January 간단히 말해 "공변량 조정" 반드시 변수에서 인과 관계 추정의 편차를 제거 하지 않았다는 의미 는 아닙니다 .
Alexis

31

나는 유대의 글을 좋아하는 팬이며, 인과 관계 (사랑)와 책 (같은)을 읽었습니다.

유대가 통계를 강타하고 있다고 생각하지 않습니다. 비판을 듣기는 어렵습니다. 그러나 비판을받지 않는 사람이나 분야에 대해 무엇을 말할 수 있습니까? 그들은 위대함에서 자만심에 빠지는 경향이 있습니다. 다음과 같은 질문을해야합니다. 비판이 정확하고, 필요하며, 유용하며 대안을 제안합니까? 모든 것에 대한 대답은 '예'입니다.

옳은? 나는 수십 개의 논문, 주로 관측 데이터 분석을 검토하고 협력했으며, 인과 관계에 대한 충분한 논의가 거의 없다고 생각합니다. "조정"접근 방식은 변수가 "유용한" "관련" "중요"또는 기타 넌센스 인 것으로 DD에서 직접 선택 되었기 때문에 변수를 선택합니다. 1

필요합니까? 언론은 주요 피폭의 건강 영향에 대한 모순적인 진술로 가득하다. 데이터 분석과 일치하지 않으면 유용한 정책, 건강 관리 절차 및 더 나은 생활을위한 권장 사항이 결여 된 증거가 정체되었습니다.

유능한? 유대의 의견은 적절하고 구체적이며 일시 정지 할 수 있습니다. 통계 또는 데이터 전문가가 접할 수있는 모든 데이터 분석과 직접 관련이 있습니다.

대안을 제안합니까? 그렇습니다. 유대는 실제로 고급 통계 방법의 가능성과 심지어 알려진 통계적 프레임 워크 (예 : 구조 방정식 모델링) 및 회귀 모델과의 연결 방식을 줄이는 방법에 대해서도 논의합니다. 그것은 모두 모델링 접근법을 안내 한 내용 지식에 대한 명시 적 진술을 요구하는 것으로 요약됩니다.

유대는 단순히 모든 통계적 방법 (예 : 회귀)을 방어 할 것을 제안하는 것이 아닙니다. 오히려, 우리는 모델을 정당화하기 위해 어떤 인과 이론을 수용해야한다고 말합니다.

1 여기서 불만은 설득력 있고 부정확 한 언어를 사용하여 궁극적으로 모델링에 대한 잘못된 접근 방식을 정당화하는 것에 관한 것입니다. 겹치는 부분이있을 수 있지만, Pearl은 인과 관계 다이어그램 (causal diagram, DAG)의 목적과 변수가 어떻게 "공포 자"로 분류 될 수 있는지에 대해 분명합니다.


3
좋은 대답입니다. 통계학자가 아니라 수년 동안 통계와 생물학의 인터페이스 역할을 한 적이 있습니다. 저에게 통계 학자에 대한 비판은 실제로 듣기 어렵지 않습니다. 진주가 명시 적으로 언급했듯이?
1 월

4
@January au contraire . 분석에서 인과 적 추론을 받아들이는 통계 학자들 사이의 부족은 빈번한 추론을 이해하는 데 부족한 것과 직접 관련이 있다고 생각합니다. 그것은 사실이 아닌 반 추론이다.
AdamO

4
하나는 ""조정 "유용"관련 ""중요 "또는 기타 넌센스"접근 방식은 그들이 인 것으로 DD에서 엄선한 되었기 때문에 변수를 선택 포함 " (실제로 그 (것)들의 사이에서 특정 인과 관계에 대한 공식적인 가설을 통합하지 않고 " DAG의 공식적인 사용) ." 편집이 추가되었습니다. :)
Alexis

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Scortchi

23

나는이 책을 읽지 않았기 때문에 당신이 준 특정 인용문 만 판단 할 수 있습니다. 그러나 이러한 근거에서도 통계 전문가에게는 이것이 매우 불공평 해 보인다는 데 동의합니다. 저는 통계 학자들이 통계적 연관성 (상관 관계 등)과 인과 관계의 차이를 강조하고이 둘의 관계에 대한 경고를하는 데있어 항상 훌륭한 일을 해왔다고 생각합니다. 사실, 내 경험상 통계 학자들은 일반적으로 원인과 상관 관계의 편재적인 혼란에 맞서 싸우는 주요 전문 힘 이었다. 통계 학자들이 인과 관계에 대해 이야기하는 것을 혐오한다고 주장하는 것은 명백한 거짓이며 사실상 비방입니다. 왜 이렇게 오만한 말을 읽고 짜증이 나는지 알 수 있습니다.

비 통계 학자 에게는 흔하게 적용된다고 말하고 싶습니다통계 모델과 인과 관계에 대한 이해가 부족한 통계 모델을 사용합니다. 어떤 사람들은 다른 분야에서 과학적으로 잘 훈련을 받았으며,이 경우에도 문제에 대해 잘 알고있을 수 있지만, 이러한 문제에 대한 이해가 부족한 통계 모델을 사용하는 사람들도 있습니다. 이는 실무자가 통계에 대한 기본 교육을 받았지만 심도있는 학습을하지 않는 많은 응용 과학 분야에서 사실입니다. 이 경우 다른 연구자들에게 이러한 개념과 적절한 관계의 차이를 경고하는 것은 종종 전문 통계 학자입니다. 통계학자는 종종 RCT의 주요 설계자이며 인과 관계를 분리하는 데 사용되는 제어와 관련된 기타 실험입니다. 무작위 배정, 위약, 잠재적 혼동 변수와의 관계를 끊기 위해 사용되는 다른 프로토콜. 통계학자가 때때로 필요한 것보다 더 많은 변수를 제어하는 ​​것은 사실이지만, (적어도 내 경험상) 오류가 거의 발생하지 않습니다. 대부분의 통계 학자들은인과 추론을 고려하여 회귀 분석을 수행 할 때 혼란스러운 변수충돌 변수 가 있으며, 항상 완벽한 모델을 구축하지는 않더라도 인과 관계에 대한 고려를 피할 수 없다는 개념은 단순히 말도 안됩니다.

유대 진주가 인과 관계에 대한 그의 연구로 통계에 매우 귀중한 기여를했다고 생각하며,이 훌륭한 기여에 감사합니다. 그는 인과 관계를 분리하는 데 도움이되는 매우 유용한 형식을 구성하고 조사했으며 그의 연구는 훌륭한 통계 교육의 필수 요소가되었습니다. 나는 그의 책 Causality를 읽었다나는 대학원생이었고 내 선반과 다른 많은 통계학 자의 선반에 있습니다. 이 형식주의의 대부분은 대수 시스템으로 공식화되기 전부터 통계 학자에게 직관적으로 알려진 것들을 반영하지만, 어떤 경우에도 매우 귀중하며 명백한 것 이상으로 진행됩니다. (실제로 우리는 확률 적 대수학이 발생하는 확률 적 대수와 함께 "do"연산의 병합을 보게 될 것이라고 생각합니다. 이것은 아마도 확률 이론의 핵심이 될 것입니다. 나는 이것을 통계 교육에 직접적으로 반영하고 싶습니다. 확률 측정에 대해 배울 때 인과 모델과 "수행"작업에 대해 배울 수 있습니다.)

여기서 염두에 두어야 할 한 가지는 목표가 예측 가능한 곳에서 실무자가 인과 관계를 유추하지 않는 통계의 적용이 많다는 것입니다 . 이러한 유형의 응용 프로그램은 통계에서 매우 일반적이므로 이러한 경우 자신을 인과 관계로 제한 하지 않는 것이 중요 합니다. 이는 대부분 재무, HR, 인력 모델링 및 기타 여러 분야의 통계 응용 프로그램에서 적용됩니다. 변수를 제어 할 수 없거나 시도하지 않아야하는 문맥의 양을 과소 평가해서는 안됩니다.


업데이트 : 내 대답이 Carlos가 제공 한 답변에 동의하지 않는 것으로 나타났습니다 . 아마도 우리는 "정기적 인 훈련으로 통계 학자 / 경제학자"를 구성하는 것에 동의하지 않을 것입니다. 내가 "통계 학자"라고 부르는 사람은 대개 대학원 수준의 교육을 받았으며 대개 상당한 전문 교육 / 경험이 있습니다. (예를 들어, 호주의 경우, 국가 전문 기관과 함께 "정식 통계 전문가"가 되려면 명예 학위 후 최소 4 년, 정규 학사 학위 후 6 년 이상의 경험이 필요합니다.) 통계를 공부 하는 것은 통계학자가 아닙니다 .

통계학 자의 인과 관계에 대한 이해가 부족하다는 증거로 카를로스의 대답은 회귀에서의 인과 관계에 대해 묻는 CV.SE에 대한 몇 가지 질문을 지적합니다. 이 모든 경우에있어서, 질문은 명백히 초보자 (통계 학자 아님) 인 사람에 의해 요구되며 Carlos와 다른 사람 (올바른 설명을 반영)에 의해 주어진 답변은 높은지지를받는 ​​답변입니다. 실제로, 몇 가지 사례에서 카를로스는 인과 관계에 대한 자세한 설명을했으며 그의 답변은 가장 높은 투표를 받았습니다. 이것은 통계 학자 들이 인과 관계를 이해하고 있음을 분명히 증명한다 .

일부 다른 포스터는 인과 관계 분석이 통계 커리큘럼에 포함되지 않는 경우가 있다고 지적했습니다. 그것은 사실이며, 그것은 매우 부끄러운 일이지만, 대부분의 전문 통계학자는 최근 졸업생이 아니며 표준 석사 프로그램에 포함 된 것을 훨씬 능가했습니다. 다시,이 점에서, 나는 다른 포스터들보다 통계 학자들의 평균 지식 수준에 대한 더 높은 견해를 가지고있는 것으로 보인다.


12
나는 같은 분야의 비 통계 학자에 의한 공식적인 통계 훈련을받은 비 통계 학자이며, 통계를 적용하는 비 통계 학자와 가르치고 연구합니다. 나는 (예를 들어) 상관 관계가 원인이 아니라는 원칙이 내 분야에서 반복되는 만트라라는 것을 확신 할 수있다. 실제로 나는 강우와 밀 생산량 사이의 상관 관계가 그들과 기본 프로세스 사이의 관계에 대해 말할 필요가있는 것은 아니라는 것을 알 수없는 사람들을 만나지 않습니다. 일반적으로 제 경험상 비 통계 학자들도 오랫동안 그렇게 생각했습니다.
Nick Cox

8
역학자로서, 나는이 만트라에 점점 더 화가 나고 있습니다. @NickCox가 말했듯이 이것은 비 과학자들조차도 이해하는 것입니다. 내가 가진 문제는 모든 사람들이 "상관이 인과 관계를 의미하는 것은 아닙니다!" 관찰 연구 (사례 관리 연구)가 출판 될 때마다. 그렇습니다. 상관 관계는 인과 관계를 의미하지는 않지만 연구자들은 일반적으로 그 사실을 잘 알고 있으며 인과 적 해석이 최소한 그럴듯한 방식으로 연구를 설계하고 분석하기 위해 모든 것을 할 것입니다.
COOLSerdash

5
@Nick Cox : 나는 이것을 잘 이해하는 많은 비 통계 학자들이 있음을 더 정확하게 진술하기 위해 편집했습니다. 다른 직업에 분산을 뿌리는 것은 저의 의도가 아닙니다 . 통계 학자들이이 문제를 매우 잘 이해하고 있음 을 강조하기 위해서 입니다.
Ben

7
@NickCox "상관이 원인이 아닙니다"보다 Pearl의 인과 관계에 대한 기여가 더 많습니다. 저는 카를로스와 함께 있습니다. 전체 과정이어야한다는 인과 관계에 대해 충분히 배울 수 있습니다. 내가 아는 한 대부분의 통계 부서는 그러한 과정을 제공하지 않습니다.
Neil G

12
@Ben : Pearl은 통계 학자들이 혼란스러운 상관 관계와 인과 관계를 비난하지 않습니다. 그는 대부분의 인과 적 추론에서 벗어나고 있다고 비난했다. 나는 그의 말투가 거만하다는 점에 동의하지만, 그는 그가 요점을 가지고 있다고 생각합니다.
mitchus

11

간단한 선형 회귀 분석은 본질적으로 인과 관계 모델입니다

다음은 선형 회귀 모델이 원인이되지 않는 경우에 대한 예입니다. 약물이 시간 0 ( t = 0 ) 에 취해지고 t = 1 에서 심장 마 비율에 영향을 미치지 않는다는 우선 순위 를 가정 해 봅시다 . 에서 심장 마비 t = 1 에서 심장 마비에 영향 = 2 t을 (즉, 이전의 손상이 손상에 더 민감 마음을한다). t = 3 에서의 생존은 사람들이 t = 2 에서 심장 마비를했는지의 여부에 달려 있습니다. t = 1에서의 심장 마비는 t = 3 에서의 생존에 실제로 영향을 미치겠 지만, 우리는 화살표가 없습니다. 간단.

전설은 다음과 같습니다.

DAG 전설

실제 인과 관계 그래프는 다음과 같습니다. 충돌체 편향

이제 우리가 그 심장 발작 모르는 척하자 1 = t을 에서 약물을 복용 무관 t = 0 그래서 우리는에서 심장 마비에 대한 약물의 효과를 추정하는 간단한 선형 회귀 모델을 구성 t = 0 . 여기서 예측 변수는 Drug t = 0 이고 결과 변수는 Heart Attack t = 1 입니다. 우리가 가진 유일한 데이터는 t = 3 에서 살아남은 사람들뿐 이므로 해당 데이터에 대해 회귀 분석을 실행합니다.

약물 계수 t = 0에 대한 95 % 베이지안 신뢰할 수있는 구간은 다음과 같습니다 . 95 % 신뢰할 수있는 간격, 콜 라이더 바이어스

우리가 볼 수있는 많은 확률이 0보다 크므로 효과가있는 것 같습니다! 그러나 우리 는 효과가 0 이라는 우선 순위 를 알고 있습니다. Judea Pearl과 다른 사람들이 개발 한 인과 관계 수학은이 예에서 (충돌 자의 자손에 의한 조절 때문에) 편향이 있음을 훨씬 쉽게 알 수있게합니다. 유대의 연구는 이러한 상황에서 전체 데이터 세트를 사용해야한다는 것 (즉, 살아남은 사람들을 보지 말 것)은 편향된 길을 제거해야한다는 것을 암시한다.

편견 없음

전체 데이터 세트를 볼 때 95 % 신뢰할 수있는 간격은 다음과 같습니다 (즉, 생존 한 사람들에 대해서는 조절하지 않음).

95 % 신뢰할 수있는 간격, 바이어스 없음.

0에 밀집되어 있으며 기본적으로 전혀 관련이 없습니다.

실제 사례에서는 상황이 그렇게 간단하지 않을 수 있습니다. 체계적인 편향 (혼동, 선택 편향 등)을 유발할 수있는 더 많은 변수가있을 수 있습니다. 분석에서 조정할 내용은 Pearl에 의해 수학되었습니다. 알고리즘은 조정할 변수를 제안하거나 조정이 체계적인 편견을 제거하기에 충분하지 않은 경우 알려줍니다. 이 공식적인 이론이 확립되면, 우리는 조정해야 할 것과 조정하지 말아야 할 것에 대해 논쟁하는 데 많은 시간을 소비 할 필요가 없습니다. 결과가 건전한 지 아닌지에 대한 결론에 빠르게 도달 할 수 있습니다. 실험을 더 잘 설계하고 관측 데이터를보다 쉽게 ​​분석 할 수 있습니다.

다음 은 Miguel Hernàn의 Causal DAG 온라인 강좌입니다. 교수 / 과학자 / 통계학자가 당면한 문제에 대해 반대 결론을 내린 실제 사례 연구가 많이 있습니다. 그들 중 일부는 역설처럼 보일 수 있습니다. 그러나 Judea Pearl의 d-separationbackdoor-criterion을 통해 쉽게 해결할 수 있습니다 .

참고로 여기에 데이터 생성 프로세스에 대한 코드와 위에 표시된 신뢰할 수있는 간격에 대한 코드가 있습니다.

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

두 번째 논문, 두 번째 논문은 고전적인 것으로 유대의 요점과이 주제에 대해 더 일반적으로 밝히고 있습니다. 이것은 SEM (상관 및 회귀)을 반복적으로 사용하고 그의 비평에 공감하는 사람으로부터 나옵니다.

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

본질적으로 논문은 왜 상관 모델 (회귀)이 강력한 인과 추론을 암시하는 것으로 간주 될 수 없는지 설명합니다. 임의의 연관 패턴은 주어진 공분산 행렬에 적합 할 수있다 (즉, 방향의 비 규격 및 / 또는 변수 간의 관계). 따라서 실험적 설계, 반추 론적 제안 등과 같은 것들이 필요하다. 이는 추정 효과가 발생하기 전에 추정 원인이 시간 내에 발생하는 데이터에 시간적 구조가있는 경우에도 적용된다.


1

"... 우리는 본질적으로 하나의 변수가 원인이고 다른 변수가 효과라고 가정하기 때문에 (상관 관계는 회귀 모델링과 다른 접근법입니다) ..."

회귀 모델링이 가장 확실하게이 가정을하지는 않습니다.

"... 그리고이 인과 관계가 관찰 된 패턴을 설명하는지 테스트합니다."

인과 관계를 가정하고 관찰에 대해 유효성을 검증하는 경우 SEM 모델링을 수행 중이거나 Pearl이 SCM 모델링이라고하는 대상을 수행하는 것입니다. 통계 도메인의 해당 부분을 호출할지 여부는 논쟁의 여지가 있습니다. 그러나 나는 그것을 고전적인 통계라고 부르지 않을 것이라고 생각합니다.

일반적으로 통계를 버리는 것보다는 Pearl이 인과 적 의미론을 다루는 통계학 자의 reticence를 비판하고 있다고 생각합니다. 그는 Carl Sagan이 "들어 와서 나가기"현상으로 인해 심각한 문제라고 생각합니다. "증가 된 성욕과의 육류 소비가 강하게 연관되어있다", p <.05 " 두 결과는 대중의 마음에 인과 적으로 연결될 것이다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.