랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까?
기능의 모든 수준에서 합산하거나 평균 중요성을 얻는 것에 대해 생각했습니다 (아마도 전자는 더 많은 수준의 기능에 편향 될 것입니다). 이 문제에 대한 언급이 있습니까?
기능 수를 줄이기 위해 다른 무엇을 할 수 있습니까? 나는 그룹 올가미를 알고 있으며, scikit-learn에 사용하기 쉬운 것을 찾을 수 없습니다.
범주 형 변수의 각 수준의 변수 중요도를 합산하는 것이 합리적인지에 대한 질문에 누구나 대답 할 수 있습니까?
—
24
@ see24 아니오 당신은 단지 그들을 합계 할 수 없습니다 : stats.stackexchange.com/questions/314567/…
—
Dan