성향 추론에 대한 성향 스코어 매칭이 작동하는 이유는 무엇입니까?


13

성향 점수 매칭은 관찰 연구에서 인과 추론을 만드는 데 사용됩니다 ( Rosenbaum / Rubin 논문 참조 ). 왜 작동하는지에 대한 간단한 직감은 무엇입니까?

다시 말해, 치료에 참여할 확률이 두 그룹에 대해 동일한 지 확인하는 경우 혼란스러운 효과가 사라지고 결과를 사용하여 치료에 대한 인과적인 결론을 내릴 수있는 이유는 무엇입니까?


8
광산은 아마도 평범하지 않은 의견이지만, PSM을 사용하면 인과 추론을 할 수 있다고 말하는 것이 조금 늘어납니다. 예, 소수의 변수에 대한 "조잡한"일치보다 더 정밀한 일치 방법이지만 하루가 끝날 때 여전히 관찰 가능한 변수 만 일치합니다. 여전히 내인성 치료가있을 수 있지만, 일치 한 후에는 치료가 외인성이라고 가정 합니다. 그러나 다시, 나는 Rubin의 좋아하는 것에 비해 아무도 없다 :)
Marquis de Carabas

5
Rosenbaum과 Rubin에 동의하지 않는 사람들이 있습니다. 게리 킹은 PSM을 사용한 매칭 결과가 Mahalanobis 거리를 기반으로 한 매칭 결과보다 열등하다고 주장했다. 여기에 자신의 논문을 참조하십시오 ... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 또한이,이 웹 세미나는 더욱 강력한 증거를 제공합니다 ... methods-colloquium.com/...
마이크 헌터

4
이론적으로 모든 가정이 충족되면 Rubin의 인과 모델을 적용하여 인과 추론을 할 수 있습니다. 그러나 물론 악마는 항상 가정의 세부 사항에 있으며, 나를 위해, 관찰되지 않은 혼란 자들의 가정은 종종 힘든 것입니다. 실제로 증명하는 것은 불가능합니다. 그러나 적어도 민감도 분석을 수행하여 관찰자가 관찰되지 않은 경우 결론을 변경하는 데 필요한 결과를 결정할 수 있습니다.
Stats 학생

5
좋은 지적 @DJohnson. Judea Pearl, Ian Shrier 및 Arvid Sjolander와 같은 사람들도 Rubin의 잠재적 결과 프레임 워크가 "충돌기 (collider)"라 불리는 것을 통해 "M-bias"를 도입 할 수 있기 때문에 인과 추론을 위해 중요합니다. 그것들은 흥미있는 읽기이며 Rubin의 모든 읽기를 보충해야합니다.
Stats 학생

답변:


12

수학에 중점을 두어 직관적 인 이해를 제공하려고합니다.

관측 데이터와 분석에서 비롯된 주요 문제는 혼란 스럽습니다. 혼란은 변수가 지정된 치료뿐만 아니라 결과에도 영향을 미칠 때 발생합니다. 무작위 실험이 수행 될 때, 피험자들은 치료에 무작위로 배정되므로 평균적으로 각 치료에 할당 된 피험자는 공변량 (연령, 인종, 성별 등)과 관련하여 유사해야합니다. 이러한 무작위 배정의 결과로, 결과의 차이가 공변량에 기인 한 것 같지는 않지만 (특히 큰 표본에서), 처리 그룹의 공변량이 평균적으로 유사하기 때문에 적용된 처리로 인해 발생합니다.

다른 한편으로, 관찰 데이터를 사용하여 대상체를 치료에 할당하는 임의의 메커니즘은 없다. 예를 들어, 표준 수술 절차와 비교하여 새로운 심장 수술 후 환자의 생존율을 조사하는 연구를 보자. 일반적으로 윤리적 인 이유로 각 시술에 환자를 무작위 배정 할 수 없습니다. 결과적으로 환자와 의사는 종종 공변량과 관련된 여러 가지 이유로 치료 중 하나를 스스로 선택합니다. 예를 들어, 나이가 많으면 새로운 절차가 다소 위험 할 수 있으므로 의사는 어린 환자에게 새로운 치료법을 더 자주 추천 할 수 있습니다. 이런 일이 발생하고 생존율을 보면 새로운 치료법이 더 효과적 일 수 있지만, 어린 환자가이 치료에 배정되고 어린 환자가 더 오래 사는 경향이 있기 때문에 오해의 소지가 있습니다. 다른 모든 것은 평등합니다. 성향 점수가 유용한 곳입니다.

성향 점수는 인과 적 추론의 근본적인 문제에 도움이됩니다. 치료 대상의 비 랜덤 화로 인해 혼란을 겪을 수 있으며 이는 중재 나 치료 만이 아니라 현재보고있는 "효과"의 원인 일 수 있습니다. 치료 그룹간에 공변량 (예 : 연령, 성별, 성별, 건강 상태)이 "균형"이되도록 분석을 어떻게 든 수정할 수 있다면 결과의 차이가 개입 / 치료로 인한 것이라는 강력한 증거가 있습니다. 이 공변량보다는 성향 스코어는 일련의 관찰 된 코바 라이트가 주어지면 그들이받은 치료에 배정 될 각 대상의 확률을 결정합니다. 그런 다음 이러한 확률 (성향 점수)을 일치 시키면

공변량에 정확히 일치하지 않는 이유를 물을 수 있습니다 (예 : 치료 1의 40 세 남성과 치료 2의 40 세 남성이 일치하는지 확인)? 이것은 큰 표본과 소수의 공변량에 대해서는 잘 작동하지만 표본 크기가 작고 공변량의 크기가 중간 정도 인 경우에는 수행하기가 거의 불가능합니다 (이 이유에 대해서는 교차 검증의 차원 저주 참조). .

이제,이 모든 것이 말한 것처럼, Achilles 성향 점수의 발 뒤꿈치는 관찰되지 않은 혼란자가 없다는 가정입니다. 이 가정은 조정에 잠재적 인 혼돈자인 공변량을 포함시키지 않은 것으로 나타냅니다. 직관적으로, 그 배후의 이유는 성향 점수를 만들 때 혼란자를 포함하지 않았다면 어떻게 조정할 수 있습니까? 한 단위에 할당 된 치료가 다른 피험자의 잠재적 결과에 영향을 미치지 않는다고 말하는 안정적인 단위 치료 값 가정과 같은 추가 가정도 있습니다.


7

엄격한 의미에서 성향 점수 조정은 회귀 모델링보다 인과 추론과 더 이상 관련이 없습니다. 성향 점수와의 유일한 실제 차이점은 표본 크기가 회귀 모델을 통합 할 수있는 것보다 더 많은 잠재적 인 혼란자를 더 쉽게 조정할 수 있다는 것입니다. 성향 점수 조정 (로짓 PS에서 스플라인을 사용하여 대부분의 경우 공변량 조정을 통해 가장 잘 수행됨)은 축소가 중요한 축인 혼란을 일으키는 데이터 축소 기술로 간주 될 수 있습니다. 그러나 결과 이질성 (민감성 편향)을 처리하지 않으므로 성향을 사용할 때에도 주요 중요 공변량을 조정해야합니다 (확률과 확률 비율의 비 축소 가능성 관련 문제 참조).

성향 점수 매칭은 많은 관측치를 배제 할 수 있으며 그 결과 매우 비효율적입니다. 관련 관찰을 배제하는 방법은 문제가 있다고 생각합니다. 매칭의 실제 문제는 1 : 1 매칭이 필요하다는 인식으로 인해 쉽게 매칭되는 관측을 배제하고 대부분의 매칭 알고리즘은 관측 순서에 의존한다는 것입니다.

겹치지 않는 영역을 확인하고 제외하기 위해 혼란을 위해 표준 회귀 조정을 수행 할 때 매우 쉽습니다. 성향 점수 사용자는이 작업을 수행하도록 교육 받았으며 회귀 모델러가 수행하지 않는 유일한 이유는 교육을받지 않은 것입니다.

성향 점수 분석은 노출과의 상호 작용을 숨기고 성향 점수 일치는 PS와 치료 효과 사이의 가능한 관계를 숨 깁니다.

PS에 대한 민감도 (측정되지 않은 confounders에 대한) 분석이 수행되었지만 표준 회귀 모델링으로 수행하기가 훨씬 쉽습니다.

당신은 PS를 추정하는 유연한 회귀 방법을 사용하는 경우에도 균형을 체크 할 필요가 없습니다 (예를 들어, 어떤 연속 변수는 선형 적 역할을 가정하지 않음) -이 있어야 균형 또는 PS 회귀 모델이 올바르게 처음에 지정되지 않았습니다 수 . 겹치지 않는 부분 만 확인하면됩니다. 이것은 성향 모델에서 생략 된 중요한 상호 작용이 없다고 가정합니다. 매칭도 같은 가정을합니다.


3

나는 대부분 무해한 계량기를 확인하는 것이 좋습니다-직관적 인 수준에서 이것에 대한 좋은 설명이 있습니다.

엑스나는와이0나는,와이1나는엑스와이0나는,와이1나는엑스와이0나는,와이1나는 치료와 관련이 있습니다.

엑스엑스엑스엑스엑스

엑스엑스엑스엑스

와이0나는,와이1나는엑스나는(엑스나는)(엑스)엑스엑스

(엑스)엑스엑스엑스와이0나는,와이1나는치료와 관련이 없습니다. 이 조건은 처리 된 것과 처리되지 않은 것 사이의 결과의 서브 샘플 평균 차이가이 서브 샘플에 대한 평균 처리 효과의 일관된 추정치, 즉

이자형[와이나는|대우,(엑스)]이자형[와이나는|미처리,(엑스)]

국소 평균 치료 효과의 일관된 추정치이다.

더 읽을 거리 :

실제로 성향 스코어 매칭을 실제로 사용해야합니까?

일치와 회귀를 비교하는 관련 질문


1

회귀가 "작동"하는 것과 같은 이유로 "작동"합니다. 모든 혼란스러운 요소를 제어합니다.

아마도 많은 혼란스러운 변수를 가진 완전히 지정된 회귀 모델 또는 성향 점수 (동일한 혼란 자들로 구성된 똑같이 복잡한 모델 일 수도 있고 아닐 수도있는)를 가진 변수를 가진 회귀 모델을 사용하여 이러한 분석 제어를 수행 할 수 있습니다. 이 회귀 분석 대 성향 점수를 고수하거나 유사성 내에서 성향 점수로 정의되는 유사 그룹 내에서의 반응을 비교할 수 있습니다. 정신적으로 당신도 같은 일을하고 있지만, 어떤 사람들은 후자의 방법이 인과 관계를 더 잘 강조한다고 생각합니다.

다음 피드백 업데이트

와이(0),와이(1)|엑스와이(0),와이(1)|(엑스),
치료 성향 점수와 가장 가까운 제어 사례가 최대 거리 내에 있어야하므로 일치하지 않는 일부 치료 사례가 발생하는 "캘리퍼 일치"(108 페이지)라는 가장 근접한 이웃 일치 버전에 대해 읽습니다. 이 경우, 비모수 적 유사체를 사용하여 회귀에 대한 성향 스코어를 조정하여이 방법이 여전히 작동하지만, 데이터만으로는 (외삽 할 모델없이) 알 수없는 것을 명확하게하고, 사용 가능한 데이터가 주어진 인과 수량.

1
이 답변은 인과 관계에서 더러운 단어 인 회귀와 비교하여 성향 점수 방법을 저렴하게하기 때문에 싫어하는 것으로 예상됩니다. 그러나 주요 답변은 "아킬레스 성향 점수의 발 뒤꿈치는 관찰되지 않은 혼란자를 가정하지 않는다"고 인정한다. 다소 큰 아킬레스 건입니다. 가정이 충족되고 우주의 모든 혼란스러운 사람들과 데이터 세트를 가지고 있다고 가정하십시오. 회귀가 인과 적 진실을 밝히는 데 효과가 없지만 성향 점수 일치가 왜 효과가 있는지 이해하도록 도와주세요.
Ben Ogorek

1
회귀가 종종 문제가되는 이유는 회귀 결과가 추정되기 때문입니다. 성향 스코어를 이용하여, 공변량 균형 점검 동안 치료 그룹 사이에 충분한 혼란자가 중복되는 것을 보장한다. 반드시 회귀 분석의 경우는 아니며 회귀 모형이 외삽한다는 표준 진단 검사가 없기 때문에 추정치가 부정확 할 수 있습니다. 그렇기 때문에 회귀 모델 만 실행하고 성향 점수 자체를 사용하지 않더라도 성향 점수 밸런싱 검사를 실행하는 것이 일반적입니다.
Stats 학생
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.