성향 점수 매칭은 관찰 연구에서 인과 추론을 만드는 데 사용됩니다 ( Rosenbaum / Rubin 논문 참조 ). 왜 작동하는지에 대한 간단한 직감은 무엇입니까?
다시 말해, 치료에 참여할 확률이 두 그룹에 대해 동일한 지 확인하는 경우 혼란스러운 효과가 사라지고 결과를 사용하여 치료에 대한 인과적인 결론을 내릴 수있는 이유는 무엇입니까?
성향 점수 매칭은 관찰 연구에서 인과 추론을 만드는 데 사용됩니다 ( Rosenbaum / Rubin 논문 참조 ). 왜 작동하는지에 대한 간단한 직감은 무엇입니까?
다시 말해, 치료에 참여할 확률이 두 그룹에 대해 동일한 지 확인하는 경우 혼란스러운 효과가 사라지고 결과를 사용하여 치료에 대한 인과적인 결론을 내릴 수있는 이유는 무엇입니까?
답변:
수학에 중점을 두어 직관적 인 이해를 제공하려고합니다.
관측 데이터와 분석에서 비롯된 주요 문제는 혼란 스럽습니다. 혼란은 변수가 지정된 치료뿐만 아니라 결과에도 영향을 미칠 때 발생합니다. 무작위 실험이 수행 될 때, 피험자들은 치료에 무작위로 배정되므로 평균적으로 각 치료에 할당 된 피험자는 공변량 (연령, 인종, 성별 등)과 관련하여 유사해야합니다. 이러한 무작위 배정의 결과로, 결과의 차이가 공변량에 기인 한 것 같지는 않지만 (특히 큰 표본에서), 처리 그룹의 공변량이 평균적으로 유사하기 때문에 적용된 처리로 인해 발생합니다.
다른 한편으로, 관찰 데이터를 사용하여 대상체를 치료에 할당하는 임의의 메커니즘은 없다. 예를 들어, 표준 수술 절차와 비교하여 새로운 심장 수술 후 환자의 생존율을 조사하는 연구를 보자. 일반적으로 윤리적 인 이유로 각 시술에 환자를 무작위 배정 할 수 없습니다. 결과적으로 환자와 의사는 종종 공변량과 관련된 여러 가지 이유로 치료 중 하나를 스스로 선택합니다. 예를 들어, 나이가 많으면 새로운 절차가 다소 위험 할 수 있으므로 의사는 어린 환자에게 새로운 치료법을 더 자주 추천 할 수 있습니다. 이런 일이 발생하고 생존율을 보면 새로운 치료법이 더 효과적 일 수 있지만, 어린 환자가이 치료에 배정되고 어린 환자가 더 오래 사는 경향이 있기 때문에 오해의 소지가 있습니다. 다른 모든 것은 평등합니다. 성향 점수가 유용한 곳입니다.
성향 점수는 인과 적 추론의 근본적인 문제에 도움이됩니다. 치료 대상의 비 랜덤 화로 인해 혼란을 겪을 수 있으며 이는 중재 나 치료 만이 아니라 현재보고있는 "효과"의 원인 일 수 있습니다. 치료 그룹간에 공변량 (예 : 연령, 성별, 성별, 건강 상태)이 "균형"이되도록 분석을 어떻게 든 수정할 수 있다면 결과의 차이가 개입 / 치료로 인한 것이라는 강력한 증거가 있습니다. 이 공변량보다는 성향 스코어는 일련의 관찰 된 코바 라이트가 주어지면 그들이받은 치료에 배정 될 각 대상의 확률을 결정합니다. 그런 다음 이러한 확률 (성향 점수)을 일치 시키면
공변량에 정확히 일치하지 않는 이유를 물을 수 있습니다 (예 : 치료 1의 40 세 남성과 치료 2의 40 세 남성이 일치하는지 확인)? 이것은 큰 표본과 소수의 공변량에 대해서는 잘 작동하지만 표본 크기가 작고 공변량의 크기가 중간 정도 인 경우에는 수행하기가 거의 불가능합니다 (이 이유에 대해서는 교차 검증의 차원 저주 참조). .
이제,이 모든 것이 말한 것처럼, Achilles 성향 점수의 발 뒤꿈치는 관찰되지 않은 혼란자가 없다는 가정입니다. 이 가정은 조정에 잠재적 인 혼돈자인 공변량을 포함시키지 않은 것으로 나타냅니다. 직관적으로, 그 배후의 이유는 성향 점수를 만들 때 혼란자를 포함하지 않았다면 어떻게 조정할 수 있습니까? 한 단위에 할당 된 치료가 다른 피험자의 잠재적 결과에 영향을 미치지 않는다고 말하는 안정적인 단위 치료 값 가정과 같은 추가 가정도 있습니다.
엄격한 의미에서 성향 점수 조정은 회귀 모델링보다 인과 추론과 더 이상 관련이 없습니다. 성향 점수와의 유일한 실제 차이점은 표본 크기가 회귀 모델을 통합 할 수있는 것보다 더 많은 잠재적 인 혼란자를 더 쉽게 조정할 수 있다는 것입니다. 성향 점수 조정 (로짓 PS에서 스플라인을 사용하여 대부분의 경우 공변량 조정을 통해 가장 잘 수행됨)은 축소가 중요한 축인 혼란을 일으키는 데이터 축소 기술로 간주 될 수 있습니다. 그러나 결과 이질성 (민감성 편향)을 처리하지 않으므로 성향을 사용할 때에도 주요 중요 공변량을 조정해야합니다 (확률과 확률 비율의 비 축소 가능성 관련 문제 참조).
성향 점수 매칭은 많은 관측치를 배제 할 수 있으며 그 결과 매우 비효율적입니다. 관련 관찰을 배제하는 방법은 문제가 있다고 생각합니다. 매칭의 실제 문제는 1 : 1 매칭이 필요하다는 인식으로 인해 쉽게 매칭되는 관측을 배제하고 대부분의 매칭 알고리즘은 관측 순서에 의존한다는 것입니다.
겹치지 않는 영역을 확인하고 제외하기 위해 혼란을 위해 표준 회귀 조정을 수행 할 때 매우 쉽습니다. 성향 점수 사용자는이 작업을 수행하도록 교육 받았으며 회귀 모델러가 수행하지 않는 유일한 이유는 교육을받지 않은 것입니다.
성향 점수 분석은 노출과의 상호 작용을 숨기고 성향 점수 일치는 PS와 치료 효과 사이의 가능한 관계를 숨 깁니다.
PS에 대한 민감도 (측정되지 않은 confounders에 대한) 분석이 수행되었지만 표준 회귀 모델링으로 수행하기가 훨씬 쉽습니다.
당신은 PS를 추정하는 유연한 회귀 방법을 사용하는 경우에도 균형을 체크 할 필요가 없습니다 (예를 들어, 어떤 연속 변수는 선형 적 역할을 가정하지 않음) -이 있어야 균형 또는 PS 회귀 모델이 올바르게 처음에 지정되지 않았습니다 수 . 겹치지 않는 부분 만 확인하면됩니다. 이것은 성향 모델에서 생략 된 중요한 상호 작용이 없다고 가정합니다. 매칭도 같은 가정을합니다.
나는 대부분 무해한 계량기를 확인하는 것이 좋습니다-직관적 인 수준에서 이것에 대한 좋은 설명이 있습니다.
치료와 관련이 있습니다.
치료와 관련이 없습니다. 이 조건은 처리 된 것과 처리되지 않은 것 사이의 결과의 서브 샘플 평균 차이가이 서브 샘플에 대한 평균 처리 효과의 일관된 추정치, 즉
국소 평균 치료 효과의 일관된 추정치이다.
더 읽을 거리 :
회귀가 "작동"하는 것과 같은 이유로 "작동"합니다. 모든 혼란스러운 요소를 제어합니다.
아마도 많은 혼란스러운 변수를 가진 완전히 지정된 회귀 모델 또는 성향 점수 (동일한 혼란 자들로 구성된 똑같이 복잡한 모델 일 수도 있고 아닐 수도있는)를 가진 변수를 가진 회귀 모델을 사용하여 이러한 분석 제어를 수행 할 수 있습니다. 이 회귀 분석 대 성향 점수를 고수하거나 유사성 내에서 성향 점수로 정의되는 유사 그룹 내에서의 반응을 비교할 수 있습니다. 정신적으로 당신도 같은 일을하고 있지만, 어떤 사람들은 후자의 방법이 인과 관계를 더 잘 강조한다고 생각합니다.
다음 피드백 업데이트