이벤트 속도가 매우 낮은 데이터 세트가 있습니다 ( 중 40,000 ). 로지스틱 회귀를 적용하고 있습니다. 나는 로지스틱 회귀가 그러한 낮은 이벤트 레이트 데이터에 대해 좋은 혼란 매트릭스를 제공하지 않는다는 사실을 알게 된 사람과 토론을했습니다. 그러나 비즈니스 문제와 정의 방법으로 인해 이벤트 수를 40,000에서 더 큰 수로 늘릴 수는 없지만 일부 비 이벤트 인구를 삭제할 수 있다는 데 동의합니다.
이에 대한 귀하의 의견을 구체적으로 알려주십시오.
- 로지스틱 회귀의 정확도는 이벤트 비율에 따라 결정됩니까 아니면 권장되는 최소 이벤트 비율이 있습니까?
- 낮은 이벤트 속도 데이터를위한 특별한 기술이 있습니까?
- 비 이벤트 모집단을 삭제하면 모델의 정확도가 좋습니까?
나는 통계 모델링을 처음 사용하므로 무지를 용서하고 생각할 수있는 모든 관련 문제를 해결하십시오.
감사,