생략 된 변수가없는 경우 회귀 원인이 있습니까?


13

중 회귀 y 에서 x 모두 영향 변수가 생략 된 경우 원인이 될 필요는 없다 xy . 그러나 생략 된 변수와 측정 오류가 아닌 경우 회귀 원인이 있습니까? 즉, 가능한 모든 변수가 회귀에 포함되어 있습니까?


4
아니요, 세상에 모든 변수를 포함하더라도 인과 관계가 생길 수 있습니다. 예를 들어, 행성의 가장 가까운 별에 대한 지구의 근접성은 행성의 표면 온도에 의해 정확하게 예측 될 수 있지만, 인과 관계는 분명히 다른 방식으로 진행됩니다
gazza89

@ gazza89-효과적으로 질문에 답변하므로 답변으로 확장 할 수 있습니다.
jbowman

3
"생략 된 변수"는 무엇입니까? 데이터 세트에 하나의 Y와 4 개의 X가 있다고 가정합니다. 4 X를 모두 포함한 모델에 적합합니다. 그런 다음 생략 된 변수가 없습니까?
user158565

답변:


20

아니요, 그렇지 않습니다. 몇 가지 반례를 보여 드리겠습니다.

첫 번째는 역 원인 이다. 인과 모델은 YX 이며, 여기서 XY 는 표준 가우스 랜덤 변수입니다. 그런 다음 E[Y|do(x)]=0 되기 때문에, X 일으키지 않는 Y 하지만, E[Y|x]X 의존합니다 .

두 번째 예는 충돌체를 제어하는 ​​것입니다 ( 여기 참조 ). 인과 모델을 고려 XZY 이고, X 발생하지 않습니다 YZ 일반적인 원인입니다. 그러나 Z 포함하여 회귀를 실행 하면 일반적인 원인에 대한 조건이 YX 사이의 연관을 유발하기 때문에 X 의 회귀 계수는 0이 아닙니다. 여기 에서 조건부 충돌기 ).YX

보다 일반적으로, 회귀 Y 에서 X 것이다 회귀에 포함되는 변수 경우 인과 백도어 기준을 만족 .


3
Judea Pearl의 Why Book을 추천합니다. 카를로스가 말하는 것을 철저히 설명합니다.
Markos Kashiouris

3
어떻게합니까 평균? do(x)
naught101

5
@ naught101 당신이 실제로 강제 의미 X = X, 달리 수동적으로 관찰 X = X 여기를 참조 stats.stackexchange.com/questions/211008/dox-operator-meaning/...
카를로스 치 넬리

고맙지 만 표기법이 명확하지 않습니다. 합니까 평균 Z는 원인이 XY를 ? 화살표를 뒤집어 야합니까? XZYZXY
Esha

xyz

6

이 질문에 대한 Carlos Cinelli의 중요한 답변 외에도 회귀 계수가 원인이 아닐 수있는 몇 가지 이유가 더 있습니다.

XYXE(YX)=X2YXX2XY

둘째, 역 인과 관계라는 주제와 관련하여 선택 바이어스 가 발생할 수있는 위험이 있습니다 . 즉, 추론을 도출하려는 모집단을 대표하지 않는 방식으로 샘플이 선택되었을 수 있습니다. 또한 데이터가 완전히 누락되지 않은 경우 누락 된 데이터에 편차가 발생할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.