약 5000 개의 기능으로 구성된 데이터 세트가 있습니다. 해당 데이터에 대해 먼저 피처 선택에 Chi Square 테스트를 사용했습니다. 그 후 응답 변수와의 유의미한 관계를 나타내는 약 1500 개의 변수를 얻었습니다.
이제 로지스틱 회귀 분석을 적용해야합니다. R에 glmulti 패키지를 사용하고 있습니다 (glmulti 패키지는 vlm에 효율적인 하위 세트 선택을 제공합니다). 한 번에 30 가지 기능 만 사용할 수 있습니다. 그렇지 않으면 데이터 세트의 행 수가 약 20000이므로 성능이 떨어집니다.
위의 문제를 해결하기위한 다른 접근 방법이나 기술이 있습니까? 위의 방법으로 가면 모델을 맞추기에는 너무 많은 시간이 걸립니다.
sklearn
의 LogisticRegression
와 내 노트북에 약 1 분에 4000 개 기능, 20,000 행의 문제를 해결한다.