기능 선택에만 LASSO 사용


10

기계 학습 수업에서 LASSO 회귀 분석이 정규화를 사용하기 때문에 기능 선택을 수행하는 방법에 대해 매우 잘 .l1

내 질문 : 사람들은 일반적으로 기능 선택을 수행하기 위해 LASSO 모델을 사용합니까 (그리고 다른 기계 학습 모델에 해당 기능을 덤프하도록 진행합니까) 아니면 일반적으로 기능 선택과 실제 회귀를 모두 수행하기 위해 LASSO를 사용합니까?

예를 들어, 능선 회귀 분석을 원하지만 많은 기능이 좋지 않다고 생각합니다. LASSO를 실행하고 알고리즘에 의해 거의 제로화되지 않은 기능 만 취한 다음 데이터를 능선 회귀 모델로 덤프하는 기능 만 사용하는 것이 현명합니까? 이렇게하면 기능 선택을 수행 할 때 정규화 의 이점을 얻을 수 있지만 과적 합을 줄이려면 정규화 의 이점을 얻을 수 있습니다. (이것은 기본적으로 Elastic Net Regression에 해당한다는 것을 알고 있지만 최종 회귀 목표 함수에 및 항을 모두 가질 필요는없는 것 같습니다 .)l1l2l1l2

회귀를 제외하고, 분류 작업을 수행 할 때 현명한 전략입니까 (SVM, 신경망, 임의 포리스트 등)?


1
예, 다른 모델의 피처 선택에 올가미를 사용하는 것이 좋습니다. 또는 트리 기반 기능 선택을 다른 모델에도 적용 할 수 있습니다
karthikbharadwaj

1
올가미는 선형 모형에서만 피처 선택을 수행하며 예측 변수의 고차 상호 작용 또는 비선형 성을 테스트하지 않습니다. 이것이 어떻게 중요한지에 대한 예는 다음과 같습니다. stats.stackexchange.com/questions/164048/… 마일리지는 다를 수 있습니다.
Sycorax는 Reinstate Monica가

답변:


11

모델 선택의 어떤 형태를 수행 한 다음 이전에 어떤 모델 선택도 없었던 것처럼 추가 분석을 수행하는 거의 모든 접근 방식은 일반적으로 불충분합니다. 실제 샘플 크기 및 특징 대 샘플 크기 비율에 대한 광범위한 시뮬레이션 연구의 증거에 의해 뒷받침되는 강력한 이론적 주장이 없다면, 이것이 예외라는 것을 보여주기 위해, 그러한 접근법은 불만족스러운 특성을 가질 가능성이 높습니다. 나는이 접근법에 대한 그러한 긍정적 인 증거를 알지 못하지만 다른 누군가가있을 수 있습니다. 원하는 목표 (예 : 탄력적 그물)를 모두 달성 할 수있는 합리적인 대안이 있기 때문에, 이러한 접근 방식은 그러한 의심스러운 임시 접근 방식을 대신 사용하여 정당화하기가 어렵습니다.


3
동의합니다 .... 요점은 모든 것이 교차 검증 프레임 워크에 맞아야한다는 것입니다. 따라서 두 개의 개별 정규화를 수행하려면 중첩 교차 검증을 수행해야하며 (그렇지 않으면 문제가 발생할 수 있음) 중첩 교차 검증은 더 적은 데이터를 사용합니다. 각 부분.
seanv507

1

위의 모든 답변 외에도 2x2 및 rxc 테이블에 대한 정확한 chi2 순열 테스트를 계산할 수 있습니다. 관측 된 카이 제곱 통계량 값을 점근 적 카이 제곱 분포와 비교하는 대신 정확한 순열 분포와 비교해야합니다. 행과 열의 여백을 일정하게 유지하면서 가능한 모든 방법으로 데이터를 퍼 뮤트해야합니다. 순열 된 각 데이터 세트에 대해 chi2 통계를 표시했습니다. 그런 다음 관측 된 chi2를 (정렬 된) chi2 통계와 비교합니다. 순열 된 chi2 테스트 통계 중 실제 테스트 통계의 순위는 p- 값을 제공합니다.


답변에 세부 정보를 추가해 주시겠습니까? 현재의 형태에서는 정확한 chi2 테스트를 어떻게 계산할 것인지 명확하지 않습니다.
Antoine Vernet
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.