드문 이벤트 로지스틱 회귀를 처리하는 전략


27

유한 한 인구에서 희귀 사건을 연구하고 싶습니다. 어떤 전략이 가장 적합한 지 잘 모르겠 기 때문에이 문제와 관련된 팁과 참고 자료를 높이 평가할 것입니다. 나는 어디서부터 시작 해야할지 정말로 모른다.

내 문제는 정치 과학 문제이며 515,843 개의 기록으로 구성된 유한 한 인구가 있습니다. 이 변수는 513,334 "0"및 2,509 "1"의 이진 종속 변수와 연관됩니다. 내 "1"을 인구의 0.49 % 만 차지하는 희귀 한 사건으로 만들 수 있습니다.

"1"의 존재를 설명하기 위해 모델을 만들고 싶은 약 10 개의 독립 변수 세트가 있습니다. 우리와 마찬가지로, 희귀 사건 수정에 관한 King & Zeng의 2001 기사를 읽었습니다 . 그들의 접근 방식은 케이스 제어 설계를 사용하여 "0"의 수를 줄이고 인터셉트에 수정을 적용하는 것입니다.

그러나이 게시물은 전체 인구에 대해 이미 데이터를 수집 한 경우 King & Zeng의 주장은 필요하지 않다고 말합니다 . 따라서 클래식 로짓 모델을 사용해야합니다. 불행히도, 나는 좋은 계수를 얻었지만 내 모델은 예측 측면에서 완전히 쓸모가 없습니다 ( "1"의 99.48 %를 예측하지 못합니다).

King & Zeng의 기사를 읽은 후 사례 제어 설계를 시도하고 모든 "1"과 함께 "0"의 10 % 만 선택했습니다. 거의 동일한 계수로 모델은 전체 모집단에 적용될 때 "1"의 거의 1/3을 예측할 수있었습니다. 물론, 많은 오 탐지가 있습니다.

따라서 세 가지 질문이 있습니다.

1) 인구에 대한 충분한 지식이있을 때 King & Zeng의 접근 방식이 편견이라면 왜 기사에서 인구를 아는 상황을 사용하여 요점을 증명합니까?

2) 로짓 회귀 분석에서 양호하고 불충분 한 계수를 가지지 만 예측력이 매우 나쁜 경우 이러한 변수가 설명하는 변동이 의미가 없음을 의미합니까?

3) 드문 이벤트를 처리하는 가장 좋은 방법은 무엇입니까? 나는 King 's relogit 모델, Firth의 접근 방식, 정확한 logit 등에 대해 읽었습니다. 나는이 모든 솔루션 중에서 잃어버린 자백해야합니다.


이 숫자는 친숙하게 들립니다. 어쩌면 민족 갈등에 관한 데이터 세트입니까? 요, 그것은 시계열입니다-나는 민족 갈등 연구에서 생존 모델을 사용하여 성공을 거두었습니다.
Christian Sauer

충분히 가까이 아프리카 충돌 사건의 위치에 대한 데이터 세트입니다. 그러나 시간을 고려하지 않고 이러한 이벤트의 위치를 ​​연구합니다.
Damien

1
아, 인종 분쟁이 만연하기 때문에 많은 사례가 아프리카에서 왔습니다. 당신은 지리학 연구입니까? 시간을 설명하는 것이 큰 문제일까요? 특정 변수가 시간이 지남에 따라 변화한다는 사실 (정치 시스템, 냉전 등) 때문에 매우 유용합니다.
Christian Sauer

1989-2010 기간을 다루는 UCDP의 GED 데이터 세트를 사용하고 있습니다. 나는 갈등 사건의 위치에서 역할을 할 수있는 지리적 요인에 관심이 있습니다. 시간의 변화는 말할 것도 많지만, 답변 된 질문은 다릅니다. 또한, 독립 변수의 대부분은 다른 기간 동안 사용할 수 없거나 (토지) 전혀 변하지 않았습니다 (지형)
Damien

1
"("1 "의 99.48 %를 예측하지 못했습니다)." 로지스틱 회귀 분석의 전체 아이디어는 출력이 확률이라는 것입니다. 위양성 / 음수의 균형을 맞추기 위해 임계 값을 결정하는 것은 사용자의
몫입니다

답변:


17

(1) "인구에 대한 완전한 지식"을 가지고 있다면 왜 예측을하기위한 모델이 필요한가? 나는 당신이 그것들을 그것들이 가상의 초 인구 표본으로 암묵적으로 고려하고 있다고 생각합니다 . 여기여기를보십시오 . 샘플에서 관측 값을 버려야합니까? 아닙니다. King & Zeng은 이것을 옹호하지 않습니다 :

[...] 국제 관계와 같은 분야에서 관찰 가능한 1의 수 (예 : 전쟁)는 엄격하게 제한되어 있으므로 대부분의 응용 프로그램에서 사용 가능한 모든 1 또는 큰 샘플을 수집하는 것이 가장 좋습니다. 그런 다음 유일한 결정은 몇 개의 0도 수집해야 하는가입니다. 0을 수집하는 것이 비용이 들지 않으면 더 많은 데이터가 항상 더 좋으므로 최대한 많은 수를 수집해야합니다.

와이

(2) 여기서 가장 큰 문제는 모델의 예측 성능을 평가하기 위해 부적절한 점수 규칙 을 사용하는 것입니다. 모델이었다 가정 진정한 개인을 위해 당신이 그렇게 것을 알고 다음 달에 뱀에 물린 드문 이벤트 말의 확률을. 임의 확률 컷오프를 규정하고 위의 것들이 물릴 것이고 아래의 것들이 그렇지 않을 것이라고 예측함으로써 무엇을 더 배울 수 있습니까? 컷오프를 50 %로하면 아무도 물리지 않을 것으로 예상됩니다. 충분히 낮게하면 모든 사람이 물릴 것이라고 예측할 수 있습니다. 그래서 무엇? 모델을 적절하게 적용하려면 차별이 필요합니다. 누가 독약에 대한 비용을 감안할 때 누가 부츠를 구입할 가치가 있습니까?


답변 주셔서 감사합니다. (1)과 관련하여, 미래 사건의 가능성을 설명하기 위해 지금까지 알고있는 관측치에 대해 이야기하는 것이 더 적절할까요? (2)와 관련하여, 나는 점수 규칙이 무엇인지 알아 내려고 잠시 시간을 보냈습니다. Wikipedia 기사를 올바르게 이해하면 이벤트가 발생할 것으로 예상되는 여러 확률 값에서 점수 기능을 변경 한 다음 가장 높은 점수를 얻은 확률을 컷오프 값으로 선택해야합니다. 로그 스코어링 규칙을 선택하면 예상 값을 어떻게 구현해야합니까?
Damien

1
아르 자형2

@Scortchi; 따라서 사건의 확률이 필요한 경우, 과소 평가 된 것으로 보이는 경우 (~ 10 개의 연속 예측 변수를 사용하여) op와 같은 관측 / 사건 수에 대해 로지스틱 회귀를 사용하여 옹호하겠습니까? 감사합니다
user2957945

3

한 단계에서, 모델의 부정확성 중 얼마나 많은 부분이 단순히 프로세스를 예측하기 어렵고 변수가 충분하지 않다는 것이 궁금합니다. 더 설명 할 수있는 다른 변수가 있습니까?

반면에 종속 변수를 카운트 / 초기 문제 (충돌로 인한 사상자 또는 충돌 지속 시간)로 캐스트 할 수 있으면 0으로 팽창 된 카운트 회귀 또는 장애물 모델을 시도 할 수 있습니다. 이것들은 0과 1 사이의 정의가 좋지 않은 문제가있을 수 있지만 변수가 서로 관련되어있는 일부 충돌은 0에서 벗어날 수 있습니다.


4
(+1) 좋은 제안. 그러나 모델의 "부정확성"은 단지 50 % 이상의 많은 확률을 예측하는 데 실패한 것입니다. "1"이 일반적으로 10 %에서 40 %의 확률을 예측 한 경우 "0"에 대해 0.5 % 미만인 것과 비교하면 많은 응용 분야에서 강력한 예측 성능으로 간주됩니다.
Scortchi-Monica Monica 복원

2

대다수 인구를 다운 샘플링하는 것 외에도 드문 이벤트를 오버 샘플링 할 수 있지만 소수 클래스의 오버 샘플링으로 인해 과적 합이 발생할 수 있으므로주의해서 확인하십시오.

이 문서는 이에 대한 자세한 정보를 제공 할 수 있습니다 : Yap, Bee Wah, et al. "불균형 데이터 세트를 처리 할 때 오버 샘플링, 언더 샘플링, 배깅 및 부스트 적용." pdf

또한 이 문제 는 동일한 문제를 논의하기 때문에이 질문 을 연결하고 싶습니다.


0

귀하의 질문은 어떻게 더 나은 솔루션을 찾기 위해 로짓 회귀를 동축시킬 수 있는지에 달려 있습니다. 그러나 더 나은 솔루션이 존재한다고 확신합니까? 10 개의 매개 변수만으로 더 나은 솔루션을 찾을 수 있었습니까?

예를 들어 입력에 제품 용어를 추가하거나 대상 측에 max-out 레이어를 추가하여보다 복잡한 모델을 시도합니다 (따라서 대상 1의 다양하게 적응 적으로 발견 된 하위 집합에 대해 여러 개의 로지스틱 회귀자가 있음).


답변 주셔서 감사합니다. 변수를 다른 방식으로 결합하려고 노력할 것입니다. 그러나 전에는 모델의 성능 저하가 기술적 인 문제 또는 다른 곳에서 비롯된 것인지 알고 싶습니다.
Damien

-1

좋은 질문입니다.

내 생각에, 문제는 당신이 추론을 시도하고 있는지 (계수가 말하는 것에 관심이 있습니까?) 또는 예측입니다. 후자의 경우 기계 학습 (BART, randomForest, boosted tree 등)에서 로짓보다 예측에서 더 나은 작업을 수행하는 모델을 빌릴 수 있습니다. 추론을하고 있고 데이터 포인트가 너무 많은 경우 현명한 상호 작용 항, 다항식 등을 포함 시키십시오. 또는이 백서에서와 같이 BART로부터 추론 할 수 있습니다.

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

최근에 희귀 사건에 대한 연구를 해왔으며, 분석에 영향을 줄 수있는 희귀 사례가 얼마나 될지 미리 알지 못했습니다. 0 사례를 다운 샘플링하는 것은 필수입니다. 이상적인 다운 샘플 비율을 찾는 전략은 다음과 같습니다.

  1. 1을 모두 가져 가면 n1이 있다고 가정 해 봅시다.
  2. 일부 값 z = 그릴 n1의 배수를 설정하십시오. 아마도 5에서 시작하여 1로 줄입니다.
  3. z * n1 0 관측 값 그리기
  4. 서브 세트 데이터 샘플에서 모델을 추정하여 전체 데이터 세트에 대해 교차 검증해야합니다.
  5. 관심 계수, 관심 계수, ROC 곡선의 AUC, 혼동 행렬의 관련 값 등을 저장하십시오.
  6. 연속적으로 더 작은 z를 위해 단계 2 : 5를 반복하십시오. 다운 샘플링 할 때 테스트 세트에서 위음성 대 오 탐지 비율이 감소한다는 것을 알 수있을 것입니다. 즉, 더 많은 1을 예측하기 시작합니다. 희망적으로는 1이지만 실제로는 0입니다. 이 오 분류에 새들 포인트가 있으면 다운 샘플 비율이 좋습니다.

이것이 도움이되기를 바랍니다. JS


1
(-1) 로지스틱 회귀 분석을 위해 다운 샘플링 할 필요가 전혀 없습니다. 참조 여기 ; 응답을 선택하면 예상 인터셉트 만 변경되므로 다운 샘플링은 추정 된 승산 비의 정밀도를 떨어 뜨립니다. 로지스틱 회귀 분석은 예측 확률을 제공합니다.이 확률은 다양한 종류의 오 분류 비용을 고려하여 계산 된 컷오프를 사용하여 분류하거나 개인의 순위를 매기거나 자신의 권리에 관심을 가질 수 있습니다.
Scortchi-Monica Monica 복원

로지스틱 회귀 사용에 대해서는 언급하지 않았으며, 드문 경우에 더 적합한 방법 (예 : 다운 샘플링 된 BART)이 있다고 제안했습니다.
Jim

로지스틱 회귀에 대한 질문과, 수행 할 때 다운 샘플링할지 여부와 "현실적인 상호 작용 항, 다항식 항 포함"에 대해 쓸 때 로지스틱 회귀에 대해 논의하는 것 같습니다. 따라서 다운 샘플링에 대한 조언이 다른 방법으로 만 사용되어야한다는 것이 확실하지 않습니다. 아마도 명확하게하기 위해 답을 편집하는 것이 좋습니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.