학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다.
우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 학습 세트의 크기입니다. 우리는 세트 기능의 수 (기능 공간의 차원을 즉)이 될 수 있습니다. 하자 나타내고 좌표 번째의 .
세부 사항을 제공 할 수없는 경우 전체 참조를 제공하십시오.
편집 (지속적으로 업데이트 됨) : 아래 답변에서 제안 된 절차
- 욕심 앞으로 선택 이진 분류를위한 변수 선택 절차
- 이전 버전 제거 이진 분류를위한 변수 선택 절차
- 이진 분류를위한 메트로폴리스 스캐닝 / MCMC 변수 선택 절차
- 형벌 로지스틱 회귀 이진 분류를위한 변수 선택 절차
이것이 커뮤니티 위키이므로 더 많은 토론과 업데이트가있을 수 있습니다
한 가지 언급이 있습니다. 어떤 의미에서 변수 순서는 허용하지만 변수 선택은 허용하지 않는 절차를 제공합니다 (기능 수를 선택하는 방법에 대해 상당히 회피 적입니다. 모두 교차 유효성 검사를 사용한다고 생각하십니까?) 이 방향으로 답변? (이 당신이 변수의 수를 선택하는 방법에 대한 정보를 추가 할 수있는 응답 writter를 할 필요가 없습니다 위키 커뮤니티입니까? 나는이 방향 여기에 질문 openned 한 수를 선택하는 매우 높은 차원 (교차 검증을 매우 높은 차원 분류에서 사용 된 변수) )