로지스틱 회귀에 대한 이진 클래스 문제가있는 각 샘플에 대해 330 개의 샘플과 27 개의 기능이있는 데이터 세트가 있습니다.
"10이면 규칙"에 따르면 각 기능을 포함하려면 최소한 10 개의 이벤트가 필요합니다. 그럼에도 불구하고 나는 긍정적 인 클래스 20 %와 부정적인 클래스 80 %의 불균형 데이터 세트를 가지고 있습니다.
이로 인해 70 개의 이벤트 만 제공되므로 물류 모델에 약 7/8 개의 기능 만 포함 할 수 있습니다.
모든 기능을 예측 변수로 평가하고 싶습니다. 어떤 기능도 직접 선택하고 싶지 않습니다.
그래서 당신은 무엇을 제안 하시겠습니까? 가능한 모든 7 가지 기능 조합을 만들어야합니까? 연관 모델로 각 기능 만 평가 한 다음 최종 모델에 가장 적합한 기능 만 선택해야합니까?
또한 범주 형 및 연속 형 기능 처리에 대해 궁금합니다. 혼합 할 수 있습니까? 범주 형 [0-1] 및 연속 형 [0-100]이있는 경우 정규화해야합니까?
저는 현재 파이썬으로 일하고 있습니다.
도와 주셔서 정말로 고맙습니다!