약 2,000 개의 이진 변수 / 100,000 행의 데이터 세트가 있고 단일 이진 종속 변수를 예측하려고합니다. 이 단계에서 나의 주요 목표는 예측의 정확성을 얻는 것이 아니라 이러한 변수 중 어떤 변수가 중요한 예측 변수인지 식별하는 것입니다. 최종 모델의 변수 수를 약 100으로 줄이려고합니다.
가장 중요한 변수를 얻는 비교적 빠른 방법이 있습니까? randomForest는 시간이 오래 걸리는 것 같습니다.
200,000 개의 관측 값을 모두 사용할 필요는 없으므로 표에서 샘플링이 옵션입니다.