비모수 회귀 분석을위한 최상의 피처 선택 방법


10

초보자 질문입니다. 현재 R의 np 패키지를 사용하여 비모수 적 회귀 분석을 수행하고 있습니다. 7 가지 기능이 있고 무차별 대입 방식을 사용하여 최고의 3을 식별했습니다. 그러나 곧 7 가지 이상의 기능을 갖게 될 것입니다!

내 질문은 비모수 회귀에 대한 기능 선택에 가장 적합한 방법은 무엇입니까? 패키지가 메소드를 구현하는 경우 감사합니다.


1
"many more"100은 무슨 뜻인가요? 1000? 10000? 100000?
로빈 지라드

아마도 나는 100 가지 기능을 가질 것입니다. 그러나 최고의 기능 하위 집합을 결정하는 데 몇 분 밖에 걸리지 않습니다.
jmmcnew

1
올가미 또는 탄성 그물을 사용해 보셨습니까? 패키지 : 올가미, glmnet. 이러한 방법은 이동 중에 일부 변수를 "선택"할 수 있습니다.
deps_stats

답변:


3

가장 관련성이 높은 변수를 식별하는 것이 분석의 주요 목표가 아닌 한, 기능 선택을 전혀하지 않고 정규화를 사용하여 과적 합을 방지하는 것이 좋습니다. 피처 선택은 까다로운 절차이며 자유도가 많기 때문에 피처 선택 기준을 너무 맞추기가 너무 쉽습니다. LASSO와 탄성 그물은 좋은 절충안이며 직접 기능 선택보다는 정규화를 통해 희소성을 달성하므로 특정 형태의 과적 합에 덜 취약합니다.


0

올가미는 실제로 좋은 것입니다. none으로 시작하는 것과 같은 간단한 것들과 '유용성'(교차 유효성 검사를 통해)을 기준으로 하나씩 추가하는 것도 실제로는 잘 작동합니다. 이를 단계적 피드 포워드 선택이라고합니다.

부분 집합 선택 문제는 분류 / 회귀 유형과는 상당히 독립적입니다. 비모수 적 방법은 속도가 느릴 수 있으므로보다 지능적인 선택 방법이 필요합니다.

T. Hastie의 '통계학 학습 요소'책은 훌륭한 개요를 제공합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.