이러한 모형의 목표가 예측 인 경우 가중 로지스틱 회귀 분석을 사용하여 결과를 예측할 수 없습니다. 위험을 과대 예측합니다. 로지스틱 모델의 강점은 로지스틱 모델에서 이진 결과와 위험 요소 간의 연관성을 측정하는 "기울기"인 승산 비 (OR)가 결과에 따라 달라지는 샘플링이라는 점입니다. 따라서 사례를 대조군과 10 : 1, 5 : 1, 1 : 1, 5 : 1, 10 : 1 비율로 샘플링하는 경우에는 문제가되지 않습니다. 샘플링이 무조건적인 한 OR은 두 시나리오에서 변경되지 않습니다. 노출 (버크 슨의 편견을 소개 할 것) 실제로, 결과 의존적 샘플링은 완전한 간단한 랜덤 샘플링이 일어나지 않을 때 비용 절감 노력입니다.
로지스틱 모델을 사용하여 결과 종속 샘플링에서 위험 예측이 바이어스되는 이유는 무엇입니까? 결과 종속 샘플링은 로지스틱 모델에서 인터셉트에 영향을줍니다. 이로 인해 모집단의 간단한 랜덤 표본에서 사례를 샘플링 한 로그 확률과 의사에서 사례를 샘플링 한 로그 확률의 차이로 인해 S 자형 연관 곡선이 "x 축을 슬라이드"합니다. 실험 디자인의 인구. (따라서 제어 할 1 : 1 사례가있는 경우이 의사 모집단에서 사례를 샘플링 할 확률은 50 %입니다.) 드문 결과에서 이것은 2 또는 3의 요소 인 상당히 큰 차이입니다.
이러한 모델이 "잘못"되었다고 말할 때는 목표가 추론 (오른쪽)인지 예측 (잘못)인지에 집중해야합니다. 이것은 또한 결과 대 사례의 비율을 다룬다. 이 주제와 관련하여 보려는 언어는 그러한 연구를 "사례 관리"연구라고 부르는 언어입니다.이 연구는 광범위하게 작성되었습니다. 아마도 내가 가장 좋아하는 주제는 Breslow and Day입니다. 이 연구는 희귀 한 암의 원인에 대한 위험 요소를 특징 짓는 획기적인 연구입니다 (이전의 희귀 성 때문에 실행 불가능했습니다). 사례 관리 연구는 빈번한 발견의 잘못된 해석을 둘러싼 논란을 일으킨다. 특히 OR을 RR (발견을 과장) 및 "연구 기반"과 표본의 중개자 및 집단을 찾은 결과를 향상시키는 논란을 일으킨다.그들에 대한 훌륭한 비판을 제공합니다. 그러나 사례 관리 연구가 본질적으로 유효하지 않다고 주장한 비판은 없습니다. 어떻게 할 수 있습니까? 그들은 수많은 길에서 공중 보건을 발전 시켰습니다. Miettenen의 기사는 결과 의존 샘플링에서 상대 위험 모델 또는 다른 모델을 사용할 수 있으며 대부분의 경우 결과와 모집단 수준 결과의 불일치를 설명 할 수 있다는 점을 잘 알고 있습니다 .OR 이 일반적으로 어려운 매개 변수이므로 실제로 나쁘지는 않습니다. 해석합니다.
위험 예측에서 오버 샘플링 편견을 극복하는 가장 쉽고 쉬운 방법은 가중 가능성을 사용하는 것입니다.
Scott과 Wild 는 가중치에 대해 논의하고 절편 항과 모델의 위험 예측을 수정 함을 보여줍니다. 이는 모집단 사례의 비율에 대한 사전 지식 이있을 때 가장 좋은 방법 입니다. 결과의 유병률이 실제로 1 : 100이고 사례를 1 : 1 방식으로 대조군에 표본을 추출하는 경우 모집단 일관된 매개 변수 및 편견없는 위험 예측을 얻기 위해 단지 100 배로 대조군에 가중치를 부여합니다. 이 방법의 단점은 다른 곳에서 오류로 추정 된 경우 인구 유병률의 불확실성을 설명하지 않는다는 것입니다. 이것은 Lumley와 Breslow 의 개방형 리서치 분야입니다.2 상 샘플링과 이중 추정기에 대한 이론이 많이 나왔습니다. 정말 흥미로운 일이라고 생각합니다. Zelig의 프로그램은 단순히 가중치 기능을 구현 한 것으로 보입니다 (R의 glm 함수가 가중치를 허용하므로 약간 중복되는 것처럼 보입니다).