낮은 이벤트 비율로 로지스틱 회귀 적용


15

이벤트 속도가 매우 낮은 데이터 세트가 있습니다 ( 중 40,000 ). 로지스틱 회귀를 적용하고 있습니다. 나는 로지스틱 회귀가 그러한 낮은 이벤트 레이트 데이터에 대해 좋은 혼란 매트릭스를 제공하지 않는다는 사실을 알게 된 사람과 토론을했습니다. 그러나 비즈니스 문제와 정의 방법으로 인해 이벤트 수를 40,000에서 더 큰 수로 늘릴 수는 없지만 일부 비 이벤트 인구를 삭제할 수 있다는 데 동의합니다.12105

이에 대한 귀하의 의견을 구체적으로 알려주십시오.

  1. 로지스틱 회귀의 정확도는 이벤트 비율에 따라 결정됩니까 아니면 권장되는 최소 이벤트 비율이 있습니까?
  2. 낮은 이벤트 속도 데이터를위한 특별한 기술이 있습니까?
  3. 비 이벤트 모집단을 삭제하면 모델의 정확도가 좋습니까?

나는 통계 모델링을 처음 사용하므로 무지를 용서하고 생각할 수있는 모든 관련 문제를 해결하십시오.

감사,


3
40000 / 12e5 = 3.3 %, 이것은 나에게 매우 낮은 속도로 보이지 않습니다.
GaBorgulya

1
감사합니다. 사람들이 높고 낮은 이벤트 비율을 결정하기 위해 더 많은 컨텍스트가 필요한 경우이 데이터는 보험 부문입니다.
ayush biyani

답변:


11

나는 당신의 질문에 순서대로 대답하지 않을 것입니다 :

3 비 이벤트 모집단을 삭제하면 모델의 정확도가 좋습니까?

각 관측치는 가능성 함수를 통해 모수에 대한 추가 정보를 제공합니다. 따라서 정보를 잃어 버릴 수 있으므로 데이터를 삭제할 필요가 없습니다.

1 로지스틱 회귀의 정확도는 이벤트 비율에 따라 결정됩니까 아니면 권장되는 최소 이벤트 비율이 있습니까?

기술적으로 그렇습니다. 드문 관찰은 훨씬 유익합니다 (즉, 가능성 함수가 가파를 것입니다). 이벤트 비율이 50:50 인 경우 동일한 양의 데이터에 대해 훨씬 더 엄격한 신뢰 구간 (또는 베이지안 인 경우 신뢰할 수있는 간격)을 얻게 됩니다 . 그러나 (사례 관리 연구를 수행하지 않는 한) 이벤트 속도를 선택할 수 없으므로 자신이 가진 것을 처리해야합니다.

2 낮은 이벤트 속도 데이터를위한 특별한 기술이 있습니까?

발생할 수있는 가장 큰 문제는 완벽한 분리입니다 . 변수의 일부 조합이 모든 비 이벤트 (또는 모든 이벤트)를 제공 할 때 발생합니다.이 경우 최대 우도 모수 추정값 (및 표준 오류)이 무한대에 도달합니다 (보통 알고리즘이 미리 중지됩니다). 가능한 두 가지 해결책이 있습니다.

a) 모델에서 예측 변수 제거 : 알고리즘이 수렴하게되지만 가장 강력한 설명력으로 변수를 제거하므로 모델이 너무 적합하지 않은 경우 (예 : 너무 복잡한 상호 작용에 적합) .

b) 사전 분배와 같은 일종의 벌칙을 사용하면 추정치를보다 합리적인 값으로 축소 할 수 있습니다.


+1 또한 사람들이 데이터를 50:50으로 재조정 한 상황을 보았습니다. 트레이드 오프는 전체 유병률에 대한 정보의 일부 손실과 계수 해석의 일부 어려움에 비해 모델의 분류 능력 (좋은 임계 값이 선택되었다고 가정)에서 개선 된 것으로 보입니다.
David J. Harris

1
@David : 또한 사람들이 가중치를 재조정하고 고주파수 클래스 만 리샘플링하는 복잡한 의사 부트 스트랩 체계를 사용한다고 들었습니다. 이러한 모든 기술에 대해 궁극적으로 데이터를 버립니다 (또는 구성). 이것이 모델을 향상 시키면 잘못된 모델에 적합하다고 주장합니다. 여기 내 의견을 참조하십시오 : stats.stackexchange.com/questions/10356/…
Simon Byrne

1) 확실하지 않은 경우 죄송합니다 glm. R 함수 의 "weights"인수와 같이 이벤트 및 비 이벤트의 상대적 영향을 변경하는 것에 대해 이야기했습니다 . 최악의 경우,이 던지는 것과 같다 부분을 각 downweighted 데이터는 내 생각, 멀리 가리하지만 정말 같은 일이 아니다. 2) 내가 말했듯이,이 결정과 관련하여 상충 관계가 있습니다. 샘플링되는 모집단이 잘 정의되지 않았고 실제 이벤트 비율이 처음에는 의미가없는 상황에서 가장 의미가 있습니다. 나는 전반적으로 그것을 추천하지 않을 것입니다.
David J. Harris

2

시간적 또는 공간적 데이터에 대한 비 이벤트를 삭제하는 것보다 나은 대안이 있습니다. 시간 / 공간에 걸쳐 데이터를 집계하고 계수를 포아송으로 모델링 할 수 있습니다. 예를 들어, 이벤트가 "X 일에 화산 폭발이 발생 함"인 경우, 며칠 동안 화산 폭발이 발생하지 않습니다. 그러나 일을 주 또는 월로 그룹화하면 (예 : "월 X의 화산 폭발 횟수") 이벤트 수가 줄어들고 더 많은 이벤트가 0이 아닌 값을 갖습니다.


6
나는이 조언이 그 질문에 전혀 답하지 못한다고 말해야한다. 1) OP가 공간적 또는 시간적 데이터를 다루고 있음을 시사하는 것은 아무것도 아닙니다. 2) 데이터를 집계하면 의미있는 관계를 식별하는 데 어떻게 도움이됩니까 (원래 단위보다 적은 정보를 사용합니다)
Andy W

2
참고로, 관찰 된 관계가 집계 된 레벨에서 발생하려면 원래 단위의 레벨에 존재해야하지만, 집계 된 레벨의 관계가 두 변수 간의 관계가 분리 된 것을 반드시 반영하지는 않습니다. 수평. 참조 qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
앤디 W를

andy에 동의하십시오.
ayush biyani
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.