내 질문은 세 가지입니다
"Kernelized"지원 벡터 머신과 관련하여
- 변수 / 기능 선택이 바람직합니다. 특히 과적 합을 방지하기 위해 매개 변수 C를 정규화하고 커널을 SVM에 도입하는 주된 동기는 문제의 차원을 높이는 것입니다.
- 첫 번째 질문에 대한 답이 "아니오"라면, 어떤 조건에서 답을 명심해야합니까?
- 파이썬의 scikit-learn 라이브러리에서 SVM의 기능 감소를 가져 오려고 시도한 좋은 방법이 있습니까? SelectFpr 방법을 사용해 보았고 다른 방법에 대한 경험이있는 사람들을 찾고 있습니다.
1
초기 기능이 최고 품질로 시작되지 않는 한 기능 선택은 항상 도움이 될 것입니다. Sklearn은 RFE의 일부인 다양한 기능 선택 라이브러리 ( scikit-learn.org/stable/modules/feature_selection.html )를 제공합니다.
—
David
컨텍스트에 대해서는 언급하지 않았습니다. 비즈니스 컨텍스트에있는 경우 모델에 남아있는 모든 기능을 일정 수준에서 유지 보수해야합니다. 변수가 많을수록 문자 비용이 발생합니다. 예를 들어 더 많은 데이터 수집 노력, DBA 시간 및 프로그래밍 시간이 필요합니다. 이 고려 사항은 Kaggle comp 또는 이와 유사한 경우에 적용되지 않으며 데이터 세트에서 사용 가능한 200 가지 기능을 추가로 사용하면 성능이 0.01 % 향상됩니다.
—
Robert de Graaf