이항 결과의 상대 위험을 추정하기위한 포아송 회귀


42

간단한 요약

포아송 회귀 (상대 위험이있는)와 반대로 이진 결과를 가진 코호트 연구에서 로지스틱 회귀 (확률이있는)가 더 일반적으로 사용되는 이유는 무엇입니까?

배경

필자의 경험에 따르면 학부 및 대학원 통계 및 역학 과정은 일반적으로 로지스틱 회귀를 이진 결과로 데이터를 모델링하는 데 사용해야하며 위험 평가는 확률 비율로보고됩니다.

그러나 포아송 회귀 (및 관련 : 준-포아송, 음 이항 등)를 사용하여 이진 결과로 데이터를 모델링하고 적절한 방법 (예 : 강력한 샌드위치 분산 추정)을 사용하여 유효한 위험 추정치 및 신뢰 수준을 제공 할 수 있습니다. 예 :

포아송 회귀 분석을 통해 상대적 위험이보고 될 수 있는데, 일부 위험 확률은 확률 결과와 비교할 때, 특히 빈번한 결과, 특히 통계에 대한 배경 지식이없는 개인에 의해 해석하기가 더 쉽다고 주장했습니다. Zhang J. 및 Yu KF를 참조하십시오 . 상대 위험은 무엇입니까? 일반적인 결과에 대한 코호트 연구에서 확률 비율을 수정하는 방법 , JAMA. 1998 년 11 월 18 일; 280 (19) : 1690-1.

이진 결과에 대한 코호트 연구 중에서 의학 문헌을 읽음으로써 포아송 회귀 분석의 상대 위험보다는 로지스틱 회귀 분석에서 확률 비를보고하는 것이 훨씬 일반적인 것으로 보인다.

질문

이진 결과에 대한 코호트 연구의 경우 :

  1. 포아송 회귀 분석의 상대적 위험보다는 로지스틱 회귀 분석에서 확률 비를보고 할만한 이유가 있습니까?
  2. 그렇지 않다면 의학 문헌에서 상대 위험에 대한 포아송 회귀의 빈도가 과학자, 임상의, 통계 학자 및 역학자 사이의 방법론 이론과 실제 사이의 지연으로 인한 것일 수 있습니까?
  3. 중간 통계 및 역학 과정에 이진 결과에 대한 포아송 회귀에 대한 추가 논의가 포함되어야합니까?
  4. 학생과 동료들에게 필요할 때 로지스틱 회귀에 대한 포아송 회귀를 고려하도록 격려해야합니까?

상대 위험을 원한다면 왜 로지스틱 대신 로그와 함께 이항 회귀를 사용하지 않겠습니까? 관측치 당 가능한 사건 수를 조절 한 경우 포아송 군의 평균-분산 관계는 의미가 없습니다.
Andrew M

@AndrewM 로그 링크로 이항 회귀를 어떻게 적용 하시겠습니까? 회귀 변수의 양수 값은 1보다 큰 확률 값을 의미합니다.
Rufo

@Rufo : 당신을 이해한다면, 이것을 회귀 변수가 아닌 선형 예측 변수라고 부릅니다. 그렇습니다. 로지스틱 링크에 대한 제한되지 않은 경우와 달리 이제 매개 변수 공간이 제한되어 선형 예측 변수가 음수입니다. MLE이 항상 존재한다고 생각하지만 (새 데이터에 대한) 예상 응답은 외부에있을 수 있습니다 (매개 변수 공간의 경계에있을 수 있음). 이러한 모델은 때로는 까다 롭습니다. [0,1]
Andrew M

@AndrewM 네, 선형 예측 변수를 사용합니다. 감사합니다 :). 그러나 모델을 구현할 때조차도 모델이 적합한 지 잘 모르겠습니다. 첫 번째 답변의 의견에서 알 수 있듯이 로그 링크가 0.5 정도 대칭이 아니기 때문에 반응 변수에 0을 1로 바꾸고 그 반대로 바꾸면 상대 위험의 추정치가 다릅니다 ( exp(beta_M1) =/= 1/exp(beta_M2)). 그것은 나를 조금 방해합니다.
Rufo

1
@Rufo : 물론 그것은 상호적인 것이 아닙니다. 상대 위험을 계산하는 중 : 및 는 일반적으로 어떤 링크 기능을 사용하든 상관 없습니다. P ( Y | X ) / P ( Y | X C ) P ( Y에서 C | X ) / P ( Y에서 C | X의 C )P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)
Andrew M

답변:


28

메모로 시작되는 네 가지 질문 모두에 대한 답변 :

현대 역학 연구에서 코호트 연구에 대한 로지스틱 회귀 분석에서 확률 비를보고하는 것이 실제로 흔한 것은 아닙니다 . 그것은 사례 관리 연구를 위해 선택한 회귀 기술이지만,보다 정교한 기술은 이제 역학 , AJE 또는 IJE 와 같은 주요 역학 저널의 분석을위한 사실상의 표준입니다.. 관찰 연구 결과를보고하는 임상 저널에 이들이 등장하는 경향이 더 커질 것입니다. 포아송 회귀 분석은 두 가지 상황에서 사용될 수 있기 때문에 몇 가지 문제가있을 수 있습니다. 연구. 특정 질문 답변에 대한 자세한 내용 :

  1. 코호트 연구의 경우 실제로는 아닙니다. 이 몇 가지 매우 조각 별 물류 모델이 사용되었을 수도, 말할 특정 경우가 있지만 이러한 이상 값입니다. 전체 지점 코호트 연구는 직접 상대 위험, 또는 여러 관련 조치를 측정 할 수 있고, 교차비에 의존 할 필요가 없다는 것입니다. 그러나 나는 두 가지 메모를 할 것이다 : 푸 아송 회귀는 종종 속도를 추정하고있다, 위험이 아니기 때문에 영향 추정치가 종종 비율 비율 (주로 내 마음에 RR로 축약 할 수 있음) 또는 발생 밀도 비율 (IRR 또는 IDR)로 표시됩니다. 따라서 검색에서 실제로 올바른 용어를 찾고 있는지 확인하십시오. 생존 분석 방법을 사용하는 많은 코호트 연구가 있습니다. 이러한 연구에서, 포아송 회귀 분석은 문제가되는 일부 가정, 특히 위험이 일정하다는 가정을합니다. 따라서 포아송 모델보다는 Cox 비례 위험 모델을 사용하여 코호트 연구를 분석하고 후속 위험 비율 (HR)을보고하는 것이 훨씬 일반적입니다. 코호트를 분석하는 "기본"방법의 이름을 눌렀다면 역학은 실제로 Cox 모델에 의해 좌우된다고 말할 수 있습니다. 여기에는 고유 한 문제가 있으며, 아주 좋은 역학 학자들이이 문제를 바꾸고 싶어합니다.

  2. 내가 그 빈도를 귀속시킬 있는 두 가지가있다 -내가 생각하는 범위 내에서 필연적으로 존재한다고 생각하지 않는 빈도. 하나는 그렇습니다-필드로서의 "역학"은 정확하게 닫히지 않았으며, 임상 통계 학자, 사회 과학자 등에서 통계적 배경이 다양한 역학 학자로부터 수많은 논문을 얻을 수 있습니다. 물류 모델은 일반적으로 가르쳐지며 내 경험상 많은 연구원들이 더 나은 도구보다 친숙한 도구를 사용합니다.

    두 번째는 실제로 "코호트"연구의 의미에 대한 질문입니다. Cox 모델 또는 Poisson 모델과 같은 것은 실제 사람의 시간 추정이 필요합니다. 특정 기간 동안, 특히 Poisson 또는 Cox 모델과 같은 생존 방법이 유용하지 않은 초기 "Intro to Epi"예제에서 다소 폐쇄 된 집단을 따르는 코호트 연구를 수행 할 수 있습니다. 물류 모델 충분히 낮은 질병 유병률로 상대 위험을 근사화하는 확률 비율을 추정하는 데 사용됩니다. 이항 회귀와 같이 직접 추정하는 다른 회귀 기술에는 새로운 학생을 쉽게 탈선시킬 수있는 수렴 문제가 있습니다. 인용 한 Zou 논문은 모두 포이 슨 회귀 기법을 사용하여 이항 회귀의 수렴 문제를 해결합니다. 그러나 이항에 적합한 코호트 연구는 실제로 "코호트 연구 파이"의 작은 조각입니다.

  3. 예. 솔직히 말해서 생존 분석 방법은 종종 수행되는 것보다 일찍 나올 것입니다. 내 애완 동물 이론은 이것이 아닌 이유는 로지스틱 회귀와 같은 방법이 코딩 하기 쉽기 때문 입니다 . 코딩하기는 쉽지만 효과 추정의 타당성에 대해 훨씬 더 큰 경고가있는 기술은 "기본"표준으로 가르치며 이는 문제입니다.

  4. 학생들과 동료들에게 적절한 도구를 사용하도록 권장해야합니다. 일반적으로 현장에서는 포아송 회귀에 대한 콕스 모델의 고려를 제안하는 것이 더 나을 것이라고 생각합니다. 대부분의 검토 자들은 지속적 위험의 가정에 대한 우려를 신속하게 제기해야합니다. 그러나 그렇습니다. "물론을 어떻게 로지스틱 회귀 모형으로 만들 수 있습니까?" 우리 모두 더 나아질 것입니다. 그러나 시간이없는 연구를보고 있다면 학생들은 이항 회귀와 포아송 회귀와 같은 대안 적 접근 방식을 모두 소개해야합니다.이 방법은 수렴 문제가 발생할 경우 사용할 수 있습니다.


당신이 말할 때 다른 회귀 기술은 그 직접 추정 [상대 위험, I 가정, 이항 회귀처럼,이 컨버전스의 문제 [...] , 당신이 당신에게 상대 위험도를 제공하도록 이항 회귀 분석을 적용 얼마나? @AndrewM은 로그 링크를 제안하지만 성공 확률이 1보다 높은 것으로 추정하는 문제를 어떻게 피할 수 있을지 모르겠습니다.
Rufo

@Rufo 로그 링크가있는 이항 모델은 코호트에서 실행될 때 상대 위험을 추정합니다. 이 모델들이 때때로 1보다 큰 확률을 추정하는 것은 실제로 이항 모델이 이상적인 것보다 구현하기 어려운 이유 중 하나입니다. 그러나 나는 그것들을 성공적으로 사용했습니다. 데이터 에 확률이 1 미만인 경우가 종종 있으므로 모델이 걱정하는 문제로 끝나지 않을 수 있습니다.
Fomite

p

9

나는 또한 상대적 위험 모델이 더 적절한 문헌에서 로지스틱 모델의 보급에 대해 추측한다. 통계 학자로서 우리는 관습을 준수하거나 "드롭 다운 메뉴"분석을 고수하는 것에 너무 익숙합니다. 이것들은 해결하는 것보다 훨씬 더 많은 문제를 만듭니다. 로지스틱 회귀는 개인이 사망 또는 장애와 같은 예 / 아니오 유형의 결과를 갖는 이진 결과를 분석하기위한 "표준 선반 도구"로 교육됩니다.

포아송 회귀 자주 분석하는 방법으로 진행됩니다 카운트 . 이러한 확률 모델은 특히 희귀 한 경우 0/1 결과를 모델링하는 데 예외적으로 효과적이라는 것이 다소 강조되고 있습니다. 그러나 로지스틱 모델은 드문 결과에도 잘 적용됩니다. 확률 제어는 사례 관리 연구에서와 같이 결과 종속 샘플링에서도 거의 위험 비율입니다. 상대 위험 또는 포아송 모델에 대해서도 마찬가지입니다.

포아송 모델은 개인이 "결과"를 두 번 이상 가질 수 있고 헤르페스 발생, 입원 또는 유방암과 같은 누적 발생률에 관심이있는 경우에도 유용합니다. 이러한 이유로 지수화 된 계수는 상대적인 비율 로 해석 될 수 있습니다 . 비율과 위험의 차이에 대해 설명하기 위해 : 1,000 명의 사람당 100 건의 사례가 있지만 한 사람에서 100 건의 사례가 모두 발생하는 경우, 발생률 (속도)은 여전히 ​​10 명의 사람당 1 건입니다. 의료 서비스 제공 환경에서는 여전히 100 건의 사례를 치료해야하며, 80 %의 예방 접종은 80 %의 발생률 감소 (선험적)입니다. 그러나 하나 이상의 결과로 인한 위험 은 1/1000입니다. 결과와 질문의 특성에 따라 적절한 모델이 결정됩니다.

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

그런데 Zhang 기사는 절편 항의 변동성을 설명하지 않는 상대 위험 추정치를 기반으로 편향 추론 추정을 제공합니다. 부트 스트랩하여 추정기를 정정 할 수 있습니다.

특정 질문에 대답하려면 다음을 수행하십시오.

  1. 결과가 드문 경우 거의 동일합니다. 결과가 공통적이면 포아송의 상대 비율 추정기의 분산이 지나치게 팽창 할 수 있으며 이진 결과와 여러 노출 사이의 편향이지만 효율적인 연관 추정치로서 확률 비를 선호 할 수 있습니다. 또한 사례-대조 연구는 결과에 따른 샘플링에 따라 변하지 않는 척도로서 승산 비 사용을 정당화한다고 생각합니다. Scott과 Wild 97은 이에 대한 방법을 설명합니다. 물론 다른 저널에는 전용 통계 검토자가 없을 수도 있습니다.

2.3. 나는 당신이 의료 검토와 학계에서 일어나는 일에 대해 지나치게 비난하고 있다고 생각합니다.

  1. 항상 학생들에게 가능할 때마다 적절한 모델을 사용하도록 권장해야합니다.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat


2
"나의 이해는 과학적 관심이 상대적인 비율을 추정하는 데 있다면, 로지스틱 분산 구조와 포아송 평균 구조를 사용하는 GLM 인 상대 위험 회귀"라는 하이브리드 모델이 있다는 것이다.
Andrew M

2
@AndrewM 참으로. 사실, 나는 그것이 선호하는 언어라고 생각합니다. 지적 해 주셔서 감사합니다. Poisson 모델이 잘못된 추정 평균-분산 관계라는 점에서 "작업 모델"임을 강조하는 Thomas Lumley의 작업 논문에 대한 참조를 포함하도록 질문을 편집했습니다.
AdamO

"결과가 드물 면 결과가 거의 같습니다" 라는 의미는 무엇입니까 ? 유병률을 추정하기 위해 RR 대신 OR을 사용하기위한 "희귀 한"결과의 최대 백분율은 얼마입니까?
vasili111

1
@ vasili111 이것은 분명한 대답이없는 화제가되고있는 주제입니다. 요즘에는 발생률이 1/30 이상과 같이 드물지 않았을 때 "희귀 한"가정을하는 사람들에 대한 많은 비판이 있습니다. 다변량 모델을 사용하면 모든 것이 가능합니다!
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.