로지스틱 회귀에 대한 샘플링에 1과 0의 실제 비율이 반영되어야합니까?


23

나무의 특성 (fe 높이)을 기반으로 나무에 사는 일부 동물 종의 발생 확률을 추정 할 수있는 로지스틱 회귀 모형을 작성하려고한다고 가정합니다. 항상 그렇듯이 시간과 비용이 제한되어 있으므로 제한된 샘플 크기 만 수집 할 수 있습니다.

다음 질문이 있습니다. 샘플의 1과 0의 비율이 1과 0의 실제 비율을 반영해야합니까? (적어도 대략) 균형 잡힌 표본 (1과 0의 수)으로 로지스틱 회귀 모델을 수행 하는 것이 일반적 관행 이라는 것을 알았습니다. 그러나 그러한 모델은 초현실적으로 높은 발생 확률을 제공합니다.

** 1과 0의 실제 비율을 반영하지 않는 모델이 " 잘못된 " 이라는 개념을 지원 하는 데 사용할 수있는 기사 / 교과서가 있습니까? **

그리고 마지막으로 , Imai et al.에 따라 1 : 1 샘플링을 수행하고 tau로 모델을 수정하는 것이 가능합니까? 2007?

이스 케이 코스케, 게리 킹, 올리비아 라우 2007.“relogit : 희귀 이벤트 이분법 종속 변수에 대한 로지스틱 회귀,”Kosuke Imai, Gary King 및 Olivia Lau,“Zelig : Everyone 's Statistical Software”http : //gking.harvard.edu/zelig.

여기에 이미지 설명을 입력하십시오

점은 나무를 나타냅니다 (빨간색 = 점유, 회색 = 비 점유). 점유 된 모든 나무를 100 % 정확도 (1)로 식별 할 수 있지만 숲의 모든 나무를 측정 할 수는 없습니다. 모델은 각 샘플링 전략 (비율)마다 다릅니다.

답변:


15

이러한 모형의 목표가 예측 인 경우 가중 로지스틱 회귀 분석을 사용하여 결과를 예측할 수 없습니다. 위험을 과대 예측합니다. 로지스틱 모델의 강점은 로지스틱 모델에서 이진 결과와 위험 요소 간의 연관성을 측정하는 "기울기"인 승산 비 (OR)가 결과에 따라 달라지는 샘플링이라는 점입니다. 따라서 사례를 대조군과 10 : 1, 5 : 1, 1 : 1, 5 : 1, 10 : 1 비율로 샘플링하는 경우에는 문제가되지 않습니다. 샘플링이 무조건적인 한 OR은 두 시나리오에서 변경되지 않습니다. 노출 (버크 슨의 편견을 소개 할 것) 실제로, 결과 의존적 샘플링은 완전한 간단한 랜덤 샘플링이 일어나지 않을 때 비용 절감 노력입니다.

로지스틱 모델을 사용하여 결과 종속 샘플링에서 위험 예측이 바이어스되는 이유는 무엇입니까? 결과 종속 샘플링은 로지스틱 모델에서 인터셉트에 영향을줍니다. 이로 인해 모집단의 간단한 랜덤 표본에서 사례를 샘플링 한 로그 확률과 의사에서 사례를 샘플링 한 로그 확률의 차이로 인해 S 자형 연관 곡선이 "x 축을 슬라이드"합니다. 실험 디자인의 인구. (따라서 제어 할 1 : 1 사례가있는 경우이 의사 모집단에서 사례를 샘플링 할 확률은 50 %입니다.) 드문 결과에서 이것은 2 또는 3의 요소 인 상당히 큰 차이입니다.

이러한 모델이 "잘못"되었다고 말할 때는 목표가 추론 (오른쪽)인지 예측 (잘못)인지에 집중해야합니다. 이것은 또한 결과 대 사례의 비율을 다룬다. 이 주제와 관련하여 보려는 언어는 그러한 연구를 "사례 관리"연구라고 부르는 언어입니다.이 연구는 광범위하게 작성되었습니다. 아마도 내가 가장 좋아하는 주제는 Breslow and Day입니다. 이 연구는 희귀 한 암의 원인에 대한 위험 요소를 특징 짓는 획기적인 연구입니다 (이전의 희귀 성 때문에 실행 불가능했습니다). 사례 관리 연구는 빈번한 발견의 잘못된 해석을 둘러싼 논란을 일으킨다. 특히 OR을 RR (발견을 과장) 및 "연구 기반"과 표본의 중개자 및 집단을 찾은 결과를 향상시키는 논란을 일으킨다.그들에 대한 훌륭한 비판을 제공합니다. 그러나 사례 관리 연구가 본질적으로 유효하지 않다고 주장한 비판은 없습니다. 어떻게 할 수 있습니까? 그들은 수많은 길에서 공중 보건을 발전 시켰습니다. Miettenen의 기사는 결과 의존 샘플링에서 상대 위험 모델 또는 다른 모델을 사용할 수 있으며 대부분의 경우 결과와 모집단 수준 결과의 불일치를 설명 할 수 있다는 점을 잘 알고 있습니다 .OR 이 일반적으로 어려운 매개 변수이므로 실제로 나쁘지는 않습니다. 해석합니다.

위험 예측에서 오버 샘플링 편견을 극복하는 가장 쉽고 쉬운 방법은 가중 가능성을 사용하는 것입니다. Scott과 Wild 는 가중치에 대해 논의하고 절편 항과 모델의 위험 예측을 수정 함을 보여줍니다. 이는 모집단 사례의 비율에 대한 사전 지식 이있을 때 가장 좋은 방법 입니다. 결과의 유병률이 실제로 1 : 100이고 사례를 1 : 1 방식으로 대조군에 표본을 추출하는 경우 모집단 일관된 매개 변수 및 편견없는 위험 예측을 얻기 위해 단지 100 배로 대조군에 가중치를 부여합니다. 이 방법의 단점은 다른 곳에서 오류로 추정 된 경우 인구 유병률의 불확실성을 설명하지 않는다는 것입니다. 이것은 Lumley와 Breslow 의 개방형 리서치 분야입니다.2 상 샘플링과 이중 추정기에 대한 이론이 많이 나왔습니다. 정말 흥미로운 일이라고 생각합니다. Zelig의 프로그램은 단순히 가중치 기능을 구현 한 것으로 보입니다 (R의 glm 함수가 가중치를 허용하므로 약간 중복되는 것처럼 보입니다).


(+1) 간단한 사례 제어 샘플링을 위해 절편을 조정하는 가장 쉬운 방법으로 언급 할만한 가치가있는 사전 보정이 있습니까?
Scortchi-Monica Monica 복원

@Scortchi 가로 채기 전에 유익한 베이지안 로지스틱 회귀를 의미합니까? 또는 제한된 최적화? 나는 그것이 실제로 무엇인지 잘 모른다.
AdamO

1
여기서 간단한 계산 : stats.stackexchange.com/a/68726/17230 . (현재 해당 용어를 어디에서 선택했는지 또는 표준인지 확실하지 않습니다.) 잘못 지정된 모델에 대해 가중치가 더 효과적이라고 들었습니다.
Scortchi-복원 Monica Monica

@Scortchi 아, 그것은 꽤 쉬울 것입니다! 오차 추정이 필요하지 않는 한 예측에 적합해야합니다. 가중치는 절편 기울기에 대해 다른 SE를 제공 하지만이 방법은 영향을 미치지 않습니다.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.