변수를 제어하는 ​​것이 부적절한 경우는 언제입니까?


15

적어도 하나의 순진한 예를 생각할 수 있습니다. X와 Z의 관계를 연구하고 싶다고 가정 해 봅시다. 또한 Y가 Z에 영향을 미치기 때문에 Y를 제어한다고 생각합니다. 그러나 나에게 알려지지 않은 것처럼, X는 Y를, Y는 Z를 유발합니다. Y의 경우, X는 Y가 주어진 Z와 무관하기 때문에 X와 Z의 관계를 "표지"합니다.

이전의 예에서, 제가 공부해야 할 관계가 X와 Y, Y와 Z 사이의 관계 일 수 있습니다. 그러나 그런 것들을 미리 알고 있다면 과학을하지 않을 것입니다 첫 번째 장소. 내가 한 연구는 이제 X와 Z 사이에 관계가 없음을 시사합니다. X와 Z는 관련이 없습니다.

이것은 다음의 의존도에 설명되어 있습니다. 올바른 시나리오에서 Z는 X와 Y에 의존하고 X와 Y는 독립적입니다. 우리는 Y와 X와 Z의 관계를 결정하기 위해 Y를 올바르게 제어합니다. 왼쪽 시나리오에서 Z는 X에 의존하는 Y에 의존합니다. X와 Z는 Y에 대해 독립적이므로 X와 Z 사이의 관계는 와이.

variable_relationships

내 질문은 기본적으로 "변수 Y를 제어하는 ​​것이 언제 적절한 지 아닌가?"입니다. X와 Y 사이의 관계를 완전히 조사하는 것은 어렵거나 불가능할 수 있지만, 예를 들어 주어진 수준에서 Y를 제어하는 ​​것은 옵션. 우리는 연구를 수행하기 전에 어떻게 결정하고, 너무 많거나 너무 적게 통제하는 일반적인 함정은 무엇입니까?

인용 감사합니다.


7
예를 들어, 인종 차별의 영향을 평가할 때 정확한 상황이 나타납니다. 를 경주 하자 . Z 를 임금으로 하자 . 하자 Y가 교육합니다. 분명히 교육은 임금에 영향을 미치므로, 당신은 그것을 통제하고 싶을 것입니다. 그러나 만약 인종 차별로 인해 소수 민족이 더 나쁜 교육을받는다면 교육에 대한 통제는 그러한 차별을 막을 것입니다. 예 : 참조 닐 존슨 (1996) . Alexis의 답변이 지적했듯이 문제의 특정 사항에 대해 알아야합니다. 모든 것을 해결하는 간단한 버튼은 없습니다. XZY
Matthew Gunn

1
나는 간단한 버튼을 누를 희망이 없었다. 사실, 내 질문이 사소한 대답으로 밝혀 졌다면 나는 매우 실망했을 것입니다. :)
Scott

1
@Repmat 예. 그러나, IV 추정의 4 가지 가정은 거의 충족되지 않았으며, 그럴지라도 관계의 강도가 IV 추정에 치우친 결과를 줄 수 있습니다. 예를 들어, Hernán과 Robins Causal Estimation (전체 답변 및 전체 답변 링크), 16 장 : 도구 변수 추정을 참조하십시오.
Alexis

1
@Alexis 당연히, IV는 "무료 점심 식사"를 제공하기가 어렵습니다.
Repmat

1
@Repmat ... 유효한 IV 추정치에 대한 가정은 그림 DAG보다 더 많은 것을 요구합니다.
Alexis

답변:


7

세 번째 변수에 대한 일부 예측 변수가 주어지면 일부 결과의 확률을 조정 (즉, 조정)하는 것이 널리 적용되지만, 올바르게 지적한 것처럼 결과 추정치에 인과 적 영향을 나타내는 편향 이 실제로 발생할 수 있습니다 . 이것은 잠재적 인 인과 적 혼란 자에 대한 "고전적인"정의로도 일어날 수 있는데, 이는 혼동 자 자체와 관심있는 예측자가 각각 추가적인 인과 적 혼동자를 업스트림에 가질 수 있기 때문이다. 아래 DAG, 예를 들면, L은 의 인과 효과 고전 교란 요인 인 ED (1)가 발생되므로 연결되어 있기 때문에, E , 및 (2)와 연결된 D 그것과 연관되어 있기 때문에LEDEDD 와 관련된 U 2 . 그러나, 조절 또는 계층화 중 P ( D | E ) 에서 L (a '충돌체 ")는 효과의 원인 추정 바이어스 생산할 예정 E D를 하기 때문에 L이 과 혼동되는 D 헤아릴 변수 U 2 L은 함께 혼동되고 E 측정되지 않은 변수에 의해 U 1 .2(|이자형)이자형2이자형1

가리비

편견없는 인과 추정을 제공하기 위해 분석을 조건화하거나 계층화 변수를 이해 하려면 인과 적 효과 식별성 기준 (백도어 경로에 의해 차단되지 않는 일반적인 원인 없음)을 사용하여 가능한 DAG를 신중하게 고려해야합니다. . 바로 가기가 없습니다. 일반적인 혼란스러운 패턴을 배웁니다. 일반적인 선택 바이어스 패턴을 배웁니다. 연습.

참고 문헌

Greenland, S., Pearl, J. 및 Robins, JM (1999). 역학 연구를위한 인과 관계 도표 . 역학 , 10 (1) : 37–48.

헤르 난, MA와 로빈, JM (2018). 인과 추론 . Chapman & Hall / CRC, 보카 레이턴, FL

Maldonado, G. 및 Greenland, S. (2002). 인과 관계 추정 . 국제 역학 저널 , 31 (2) : 422–438.

진주, J. (2000). 인과 관계 : 모델, 추론 및 추론 . 케임브리지 대학 출판부.


12

귀하의 질문에 대한 빠른 한 문장의 대답을 믿습니다.

변수 Y를 제어하는 ​​것이 언제 적절합니까?

"백도어 기준"입니다.

유대 진주의 구조적 인과 모델은 어떤 변수가 다른 변수에 대한 인과 적 영향을 추론하기 위해 어떤 변수가 컨디셔닝에 충분한 지 (필요한 경우) 확실하게 알 수 있습니다. 즉, 이것은 백도어 기준을 사용하여 답변되며, 이는 Pearl 이이 검토 논문의 19 페이지에 설명되어 있습니다.

주요 경고는 변수 간의 인과 관계 (그래프에서 방향 화살표의 형태)를 알아야한다는 것입니다. 그 주위에 방법이 없습니다. 어려움과 가능한 주관성이 작용할 수있는 곳입니다. Pearl의 구조적 인과 관계 모델을 사용하면 인과 관계 모델 (예 : 직접 그래프)을 통해 올바른 질문에 답하는 방법, 데이터 분포를 통해 가능한 인과 관계 모델 세트 또는 올바른 실험을 수행하여 인과 관계를 찾는 방법을 알 수 있습니다. 데이터 분포만으로 올바른 인과 구조를 찾는 방법을 알려주지는 않습니다. 실제로 변수의 의미에 대한 외부 지식 / 직관을 사용하지 않고서는 이것이 불가능하다고 주장합니다.

백도어 기준은 다음과 같이 명시 할 수 있습니다.

의 인과 관계에 미치는 영향 찾으려면 Y를 , 변수의 집합 노드 S가 모두 다음 기준이 충족만큼 조건으로 할 충분합니다 :XY,S

1) 어떤 원소도 X 의 자손이 아닙니다.SX

2) XY 사이의 모든 "후문"경로를 차단 합니다SXY

여기서 "백도어"경로는 단순히 에서 시작 하여 X를 가리키는 화살표로 끝나는 화살표의 경로입니다 . (다른 모든 화살표가 가리키는 방향은 중요하지 않습니다.) "차단"은 그 자체로 특정 의미를 갖는 기준이며, 이는 위 링크의 11 페이지에 나와 있습니다. 이것은 "D- 분리"에 대해 배울 때 읽는 것과 동일한 기준입니다. 저는 개인적으로 주교의 패턴 인식 및 기계 학습의 8 장 에서 위에 링크 된 Pearl 소스보다 D- 분리에서의 차단 개념이 더 잘 설명되어 있음을 발견했습니다 . 그러나 다음과 같이 진행됩니다.YX.

노드 집합 블록 사이의 경로 XY 경우 만족 다음 조건 중 적어도 하나 :S,XY

1)도되는 경로의 노드의 일 방출하여이 경로에 적어도 하나의 화살표 (즉, 화살표) 떨어진 노드에서 가리키는S,

2) 안에서는없는 노드 도의 노드의 조상 S는 ) 접근전을 충족 (그것을 향해, 즉 "충돌"경로를 갖는 두 개의 화살표SS

이것은 인 또는 인 일반 백도어 기준 달리 기준 기준.

백도어 기준에 대해 명확하게 말하면, 주어진 인과 모델에 대해 충분한 변수를 조정할 때 데이터의 확률 분포에서 인과 적 영향을 알 수 있다는 것입니다. (알다시피, 여러 분포의 인과 구조가 동일한 분포를 담당 할 수 있기 때문에 관절 분포만으로는 인과 적 행동을 찾기에 충분하지 않습니다. 이것이 인과 모형도 필요한 이유입니다.) 분포는 일반적인 통계 / 관측 데이터에 대한 기계 학습 방법. 당신이 아는 한 인과 구조가 변수 (또는 변수 세트)를 조절할 수 있기 때문에 한 변수가 다른 변수에 미치는 영향의 추정치는 통계적 방법을 통해 얻은 데이터 분포의 추정치만큼 좋습니다.

다음은 백도어 기준을 두 다이어그램에 적용 할 때 찾은 내용입니다.

두 경우 모두 에서 X 로의 백도어 경로가 없습니다 . 따라서 Y는 "모든"백도어 경로를 차단하지 않습니다. 그러나, 좌측 도면에서, Y는 직접적인 자손 X , 그렇지 오른쪽 도면에있다. 따라서 Y 는 오른쪽 다이어그램의 백도어 기준을 따르지만 왼쪽은 아닙니다. 이것은 놀라운 결과입니다.ZX.YYX,Y

그러나 놀라운 점 오른쪽 그림에서 완전한 그림 이라면 XZ 에 미치는 인과 적 영향을 얻기 위해 를 조건으로 할 필요가 없다는 것입니다 . (다른 방법으로, 상기 값 때문에 직관적으로 이것이 사실 세트 만족 백 도어 기준, 따라서이며, 조절하기에 충분.)를 X이 그와 연결되지 않은 Y 너무 오버 할 수 있습니다 단순히 평균 충분한 데이터를 값 Y는 효과 배척하는 YZ를 . 이 점에 대한 한 가지 반대 의견은 데이터가 제한되어 있으므로 대표 분포가 없다는 것입니다.YXZXYYYZ. 값. 그러나 백도어 기준은 데이터의 확률 분포가 있다고 가정합니다. 이 경우 Y를 분석적으로 주 변화 할 수 있습니다 . 유한 데이터 세트에 대한 한계 화는 추정 일뿐입니다. 또한,이 주 것을매우가능성이 전체 사진입니다. X 에 영향을 미치는 외부 요인이있을 수 있습니다 . 이러한 요소가어떤 식 으로든 Y 와 관련이있는경우 Y를 조정해야하는지 또는 충분한지 확인하기 위해 더 많은 작업을 수행해야합니다. Y 에서 X 를가리키는 다른 화살표를 그리면 Y 를 제어해야합니다.YY.X.YYYXY

물론 이것은 가 언제 통제 될 수 있는지 또는 통제 할 수 없는지 를 직감으로 알 수있는 매우 간단한 예 입니다. 그러나 다이어그램을 보면 명확하지 않은 몇 가지 예가 더 있으며 백도어 기준을 사용할 수 있습니다. 다음 다이어그램 에서 XZ 에 미치는 인과 적 영향을 결정할 때 Y 를 제어하기에 충분한 지 묻습니다 .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

가장 먼저 알아 두어야 할 것은 두 경우 모두 X 의 자손이 아닙니다 . 그래서 그것은 그 기준을 통과합니다. 다음으로 주목해야 할 것은 두 경우 모두 Z 에서 X 까지 여러 백도어 경로가 있다는 것 입니다. 왼쪽 다이어그램에서 2 개, 오른쪽에서 3 개YX.ZX.

왼쪽 다이어그램에서 백도어 경로는 Z W B A X 입니다.ZYXZWBAX. 는 경로에 직접있는 화살표 방출 노드이므로 첫 번째 경로를 차단합니다. Y는 또한블록이 아니하므로 제 2 경로 B , 도 그것의 하위 B , 경로 만 충돌 화살표 노드이다. 따라서 Y 는 컨디셔닝에 충분한 세트입니다. (참고 달리하여그 경로를 차단하지 않기 때문에 우측 도면, 널 세트는 컨디셔닝 불충분 Z Y X를 ).YY B,B,YZYX

오른쪽 다이어그램에서 백도어 경로는 왼쪽 과 동일 하며 경로 ZWBYX. 경로에서 화살표 방출 노드이기 때문에이 경로를 차단하지 않습니다. 또한왼쪽 다이어그램과 같은 이유로경로 Z Y X 를차단합니다. 그러나, 않는하지경로 블록 Z를 W B X , 이는 충돌체 노드의 직계 때문에 B . 따라서컨디셔닝에는충분하지 않습니다.Y ZYXZWBAX,B.

XZ에 각각 영향을 미치는 외생 변수 AW로 인해 가 왼쪽 다이어그램에서 컨디셔닝에 충분한 이유를 보는 것은 매우 직관적이지 않습니다 . 그러나 B 가 없다고 가정하십시오 . 이 경우, 외인성 변수로 인해 XZ 사이에 가짜 관계 가 없으므로 걱정할 필요가 없습니다. 의 존재 B , 그러나, 문제 박았. B 가 어떤 값을 취할 수 있다면 AW 가 주어지면 자연스럽게 걸립니다.YAWXZB.XZB,BAW중요한 변수 나 그것들을 결정하는 외인성 변수에 영향을 미치지 않기 때문에 문제가되지 않습니다. 그러나 (또는 그 하위 항목 중 하나)가 제어 되면 실제로 AW를 종속적으로 렌더링 하여 원하지 않는 XZ 사이의 가짜 관계를 만듭니다 . 링크 된 출처에서 언급 한 바와 같이, 이것은 두 개의 독립적 인 출처로 인한 변수의 관찰이 그 출처를 의존하게 만드는 Berkson의 역설 의 예입니다 (예 : 두 개의 독립적 인 동전 뒤집기의 결과는 총 수의 관찰에 의존합니다) 머리가 뒤집 혔습니다).BAWXZ

백도어 기준을 사용하기 전에 언급했듯이 인과 관계 모델 (예 : 변수 사이의 "올바른"화살표 다이어그램)을 알아야합니다. 그러나 Structural Causal Model은 이러한 모델을 검색하거나 검색이 쓸데없는시기를 알 수있는 가장 좋고 공식적인 방법을 제공한다고 생각합니다. 또한 "혼란", "중재"및 "스퓨리어스"(모두 혼동되는)와 같은 용어를 렌더링하는 데있어 부작용이 있습니다. 그림을 보여 주시면 어떤 서클을 제어해야하는지 알려 드리겠습니다.


3
좋은. 내 답변의 참조 섹션에 Pearl 's Causality 를 추가할지 여부에 대해 토론하고 있었으며 이제는 그렇게했습니다. :)
Alexis

0

다음은 귀하의 경우에 적합하지 않을 수도 있습니다 X. 치료 인 경우, 일치를 수행 할 때 변수를 유지 하는 경향 점수 일치 를 사용하여 문제를 해결할 수 있습니다 Y. 다시 말해, Y치료 받기를 예측 하는 공변량 (공변량 중 하나)의 균형을 맞 춥니 다 X. 위
의 결과 변수 Z에 대한 참조가 없는지 확인하십시오 . 또한 일치 전후 테이블을 생성하여 관측 값의 균형이 어느 정도 X인지 확인할 수 Y있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.