결과 변수가 케이스 / 제어 상태가 아닌 경우 케이스 제어 설계에서 로지스틱 회귀 계수 추정


10

다음과 같은 방법으로 크기 모집단의 데이터를 샘플링합니다 .Nk=1,...,N

  1. 개별 의 "질병"상태 관찰k

  2. 질병이있는 경우 확률로 표본에 포함시킵니다.pk1

  3. 질병이없는 경우 확률로 질병을 포함시킵니다 .pk0

이진 결과 변수 및 예측 변수 벡터 가 대해이 방법으로 샘플링 된 대상 을 관찰 가정합니다 . 결과 변수는 "질병"상태 가 아닙니다 . 로지스틱 회귀 모델의 매개 변수를 추정하고 싶습니다.YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

내가 관심을 갖는 것은 (log) 승산 비 β 입니다. 절편은 나와 관련이 없습니다.

내 질문은 : 샘플링 확률 \ {p_ {i1}, p_ {i0} \} , i = 1, ..., n 을 무시 하고 모형을 피팅하여 {\ boldsymbol \ beta}대한 합리적인 추정치를 얻을 수 있습니까? 평범한 무작위 표본 이었습니까?β{pi1,pi0}i=1,...,n


나는이 질문에 대한 답이 "예"라고 확신합니다. 내가 찾고있는 것은 이것을 검증하는 참조입니다.

내가 확신하는 두 가지 주요 이유는 다음과 같습니다.

  1. 나는 많은 시뮬레이션 연구를 해왔으며 이것들 중 어느 것도 이것과 모순되지 않으며,

  2. 모집단이 위의 모델에 의해 관리되는 경우 샘플링 된 데이터를 관리하는 모델은 다음과 같습니다.

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

샘플링 확률이 의존하지 않는 경우, 이것은 절편으로의 간단한 이동을 나타내며 의 포인트 추정값 은 분명히 영향을받지 않습니다. 그러나 각 사람마다 오프셋이 다르면 비슷한 점이 의심되지만 확실히 다른 점 추정치를 얻을 수 있기 때문에이 논리는 적용되지 않습니다. iβ

관련 : Prentice and Pyke (1979)의 논문 은 사건 통제 (결과로 질병 상태를 갖는)에서 발생하는 로지스틱 회귀 계수는 전향 적 연구에서 수집 한 것과 동일한 분포를 가지고 있다고 말합니다. 나는이 같은 결과가 여기에 적용 될 것이라고 생각하지만 나는 종이의 모든 비트를 완전히 이해하지 못한다고 고백해야합니다.

의견 / 참조에 미리 감사드립니다.


1
"결과 변수는 질병 상태 가 아닙니다 "라고 말합니다. 무엇 표시? CV에 다시 오신 것을 환영합니다. Yi=1
gung-Monica Monica 복원

1
Yi 는 다른 변수입니다. 의미하는 것은 샘플링 확률을 지시하는 변수 (보통 사례 관리에서 질병 상태)가 결과 변수와 같지 않다는 것입니다. 데이터 세트의 2 차 분석을 생각하십시오. 예를 들어, 약물 사용자와 약물을 사용하지 않는 사람들의 추가 (빈도 일치, 특정 공변량) 세트를 체계적으로 샘플링하여 샘플을 생성했지만 연구중인 결과 변수는 다른 행동 측정입니다. 이 경우 샘플링 방식은 귀찮습니다. 고마워, btw!
매크로

답변:


8

이것은 계량 경제학에서 선택 모델의 변형입니다. 여기서 선택된 표본 만 사용한 추정치의 유효성은 . 여기 것입니다 의 질병 상태.Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

자세한 내용을 보려면 다음 표기법을 정의하십시오. 및 ; 은 가 샘플에있는 이벤트를 나타냅니다 . 또한, 는 단순성을 위해 와 무관 하다고 가정 합니다.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

표본 의 단위 에 대한 의 확률 은 의해 반복 된 만기 법이 적용됩니다. 질병 상태 및 기타 공변량 에 대해 조건부로 가정 하면 결과 는 무관 합니다. 결과적으로 Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
그것은 쉽게 볼 그 여기서 및 은 샘플링 체계에 정의 된대로입니다. 그러므로,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
경우 , 샘플 선택 문제를 생략 할 수 있습니다. 반면, , 일반적으로 특별한 경우 로짓 모델을 고려하십시오. Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
때에도 및 통해 일정한 , 얻어진 분포 로짓 형성을 유지할 것이다. 더 중요한 것은 매개 변수의 해석이 완전히 다를 것입니다. 위의 주장이 문제를 좀 더 명확히하는 데 도움이되기를 바랍니다.pi1pi0i

추가 설명 변수로 를 포함 시키고 에 따라 모형을 추정 하려고합니다 . 사용의 타당성을 정당화하기 위해 , 우리가 입증 할 필요가 , 이는 는 의 충분한 통계량입니다 . 샘플링 프로세스에 대한 추가 정보가 없으면 그것이 사실인지 잘 모르겠습니다. 추상 표기법을 사용합시다. 관측 변수 는 의 임의 함수 와 다른 임의 변수 로 볼 수 있습니다.DiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . 나타내고 . 경우 의 독립적 인 조건으로 및 , 우리가 독립의 정의에 의해. 그러나 및 에서 컨디셔닝 한 후 가 무관 한 경우 직관적으로 이며 일반적으로Si=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . 따라서 '그러나'경우, 표본 선택의 무지는 추론으로 오도 될 수있다. 계량 경제학의 샘플 선택 문헌에 익숙하지 않습니다. Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book계량 경제학 의 제한적 의존성 및 질적 변수의 16 장을 추천한다. '는 표본 선택과 불연속 결과에 대한 문제를 체계적으로 처리하는 것이다.


2
감사. 이것은 훌륭한 답변이며 완벽하게 이해됩니다. 내 응용 프로그램에서 은 현실적이지 않습니다. 그러나 를 예측 변수 로 추가 하고 분포 고려하는 것이 좋습니다 . 비슷한 파생을 사용하면 이면 괜찮습니다. 이것은 내 경우에는 합리적인 가정입니다. 어떻게 생각해? BTW,이 문제를 언급 한 참고 문헌이 있습니까? 나는 계량 경제학 문헌에 익숙하지 않다. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
매크로

나는 베르누이 재판, 즉 이 데이터 생성 가정 하에서이 베르누이 시행은 조건부로 와 무관 하므로 괜찮습니다. 이 문제에 대한 귀하의 노력과 통찰에 감사 드리며 답변을 받아들이고 있습니다. 아무도 내가 찾고있는 정확한 참조를 가지고 있지 않다고 가정하면 (확장 된 토론으로 벗어나기보다는 단순히이 문제를 간단히 인용 할 수 있기를 바랍니다) 바운티를 수여합니다. 건배.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
매크로

이 선택 과정은 귀하의 전략에 적합합니다. 이러한 선택 문제에 기초하여, 귀하의 문제는 누락 된 자료 문헌에서 무작위로 누락 된 (MAR) 사례가됩니다. 수상 해 주셔서 감사합니다.
semibruin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.