아마도 백 번 전에 해결 된 문제를 다루고 있지만 대답을 어디서 찾을 수 있는지 잘 모르겠습니다.
로지스틱 회귀 분석을 사용할 때 많은 기능 을 고려하고 이진 범주 값 를 예측하려고하면 잘 예측하는 기능의 하위 집합을 선택하는 데 관심이 있습니다. y y
올가미와 유사한 절차를 사용할 수 있습니까? (나는 선형 회귀에 사용되는 올가미 만 보았습니다.)
다른 피처의 중요성을 나타내는 적합 모형의 계수를보고 있습니까?
편집-답변 중 일부를 본 후의 설명 :
적합 계수의 크기를 언급 할 때 정규화 (평균 0 및 분산 1) 기능에 적합하다는 것을 의미합니다. 그렇지 않으면 @probabilityislogic이 지적했듯이 1000x는 x보다 덜 중요하게 보입니다.
@Davide가 제공 한 최고의 k-subset을 찾는 데 관심이 없지만 서로 다른 기능의 중요성을 평가합니다. 예를 들어, 하나의 기능은 "나이"이고 다른 기능은 "나이> 30"일 수 있습니다. 점진적인 중요성은 적을 수 있지만 둘 다 중요 할 수 있습니다.