능선 회귀와 LASSO의 장단점에 대해 이미 알고 있습니다.
LASSO의 경우, L1 페널티 항은 희소 계수 벡터를 생성하며, 이는 특징 선택 방법으로 볼 수 있습니다. 그러나 LASSO에는 몇 가지 제한 사항이 있습니다. 기능의 상관 관계가 높은 경우 LASSO는 그 중 하나만 선택합니다. 또한 > 인 문제의 경우 LASSO는 최대 매개 변수를 선택합니다 ( 및 는 각각 관측치 및 매개 변수의 수입니다). 이로 인해 LASSO는 능선 회귀에 비해 예측 가능성 측면에서 경험적으로 차선책이됩니다.n n n p
능선 회귀 분석의 경우 일반적으로 더 나은 예측 가능성을 제공합니다. 그러나 그 해석 성은 LASSO만큼 좋지 않습니다.
위의 설명은 종종 기계 학습 / 데이터 마이닝의 교과서에서 찾을 수 있습니다. 그러나 나는 여전히 두 가지에 대해 혼란스러워합니다.
특징 범위 (0과 1 사이 또는 평균과 단위 분산이 0 인)를 정규화하고 능선 회귀를 실행하는 경우 계수의 절대 값을 정렬하여 특징의 중요성에 대한 아이디어를 얻을 수 있습니다 (가장 중요한 특징은 계수의 최고 절대 값). 피처를 명시 적으로 선택하지는 않지만 능선 회귀를 사용하면 해석 성이 손실되지 않습니다. 동시에 우리는 여전히 높은 예측력을 달성 할 수 있습니다. 그렇다면 왜 LASSO가 필요합니까? 여기에 뭔가 빠졌습니까?
기능 선택 특성으로 인해 LASSO가 선호됩니까? 이해하기 위해 기능 선택이 필요한 이유는 일반화 및 계산 용이성입니다.
계산의 편의를 위해 NLP 작업을 수행하는 경우 모델에 백만 개의 기능을 모두 제공하지 않기 때문에 계산 비용을 줄이기 위해 분명히 쓸모없는 기능을 먼저 삭제합니다. 그러나 LASSO의 경우 모든 데이터를 모델에 공급 한 후에 만 기능 선택 결과 (스파 스 벡터)를 알 수 있으므로 계산 비용 절감 측면에서 LASSO의 이점을 얻지 못합니다. 예측 결과를 생성하기 위해 기능의 일부 (예 : 1 백만 개 중 500 개) 만 모델에 제공하기 때문에 예측을 조금 더 빠르게 할 수 있습니다.
LASSO가 일반화 능력을 선호하는 경우 능선 회귀 (또는 다른 종류의 정규화)를 사용하여 동일한 목표를 달성 할 수도 있습니다. 왜 우리는 다시 LASSO (또는 탄성 그물)가 필요합니까? 왜 능선 회귀를 고수 할 수 없습니까?
누군가 이것에 약간의 빛을 비출 수 있습니까? 감사!