나는 주로 재정적 변수가 많은 데이터 세트 (120 가지 특징, 4k 예제)를 가지고 있으며 상관 관계가 높고 소음이 심합니다 (예 : 기술 지표). 나중에 모델 훈련 (이진 분류)과 함께 사용하기 위해 최대 20-30을 선택하고 싶습니다. - 증가 감소).
기능 순위에 임의 포리스트를 사용하려고 생각했습니다. 재귀 적으로 사용하는 것이 좋습니다? 예를 들어, 첫 번째 라운드에서 원하는 수의 기능을 얻을 때까지 최악의 20 %, 두 번째 등을 떨어 뜨립니다. RF와 교차 검증을 사용해야합니까? (CV를 사용하지 않는 것은 직관적입니다. RF가 이미하는 일과 거의 비슷하기 때문입니다.)
또한 임의의 포리스트를 사용하는 경우 기능 중요도를 얻기 위해 실제 증가 / 감소를 위해 이진 또는 회귀의 분류기로 사용해야합니까?
그런데 기능 선택 후 시도하려는 모델은 SVM, 신경망, 로컬 가중치 회귀 및 임의 포리스트입니다. 나는 주로 파이썬에서 일하고 있습니다.
built-in
의 속성 RandomForestClassifier 에서 sklearn
전화가 feature_importances_
....? 링크에서 볼 수 있습니다.