유한 한 인구에서 희귀 사건을 연구하고 싶습니다. 어떤 전략이 가장 적합한 지 잘 모르겠 기 때문에이 문제와 관련된 팁과 참고 자료를 높이 평가할 것입니다. 나는 어디서부터 시작 해야할지 정말로 모른다.
내 문제는 정치 과학 문제이며 515,843 개의 기록으로 구성된 유한 한 인구가 있습니다. 이 변수는 513,334 "0"및 2,509 "1"의 이진 종속 변수와 연관됩니다. 내 "1"을 인구의 0.49 % 만 차지하는 희귀 한 사건으로 만들 수 있습니다.
"1"의 존재를 설명하기 위해 모델을 만들고 싶은 약 10 개의 독립 변수 세트가 있습니다. 우리와 마찬가지로, 희귀 사건 수정에 관한 King & Zeng의 2001 기사를 읽었습니다 . 그들의 접근 방식은 케이스 제어 설계를 사용하여 "0"의 수를 줄이고 인터셉트에 수정을 적용하는 것입니다.
그러나이 게시물은 전체 인구에 대해 이미 데이터를 수집 한 경우 King & Zeng의 주장은 필요하지 않다고 말합니다 . 따라서 클래식 로짓 모델을 사용해야합니다. 불행히도, 나는 좋은 계수를 얻었지만 내 모델은 예측 측면에서 완전히 쓸모가 없습니다 ( "1"의 99.48 %를 예측하지 못합니다).
King & Zeng의 기사를 읽은 후 사례 제어 설계를 시도하고 모든 "1"과 함께 "0"의 10 % 만 선택했습니다. 거의 동일한 계수로 모델은 전체 모집단에 적용될 때 "1"의 거의 1/3을 예측할 수있었습니다. 물론, 많은 오 탐지가 있습니다.
따라서 세 가지 질문이 있습니다.
1) 인구에 대한 충분한 지식이있을 때 King & Zeng의 접근 방식이 편견이라면 왜 기사에서 인구를 아는 상황을 사용하여 요점을 증명합니까?
2) 로짓 회귀 분석에서 양호하고 불충분 한 계수를 가지지 만 예측력이 매우 나쁜 경우 이러한 변수가 설명하는 변동이 의미가 없음을 의미합니까?
3) 드문 이벤트를 처리하는 가장 좋은 방법은 무엇입니까? 나는 King 's relogit 모델, Firth의 접근 방식, 정확한 logit 등에 대해 읽었습니다. 나는이 모든 솔루션 중에서 잃어버린 자백해야합니다.