능선 회귀가 LASSO보다 더 나은 해석 성을 제공 할 수없는 이유는 무엇입니까?

능선 회귀와 LASSO의 장단점에 대해 이미 알고 있습니다.

LASSO의 경우, L1 페널티 항은 희소 계수 벡터를 생성하며, 이는 특징 선택 방법으로 볼 수 있습니다. 그러나 LASSO에는 몇 가지 제한 사항이 있습니다. 기능의 상관 관계가 높은 경우 LASSO는 그 중 하나만 선택합니다. 또한 > 인 문제의 경우 LASSO는 최대 매개 변수를 선택합니다 ( 및 는 각각 관측치 및 매개 변수의 수입니다). 이로 인해 LASSO는 능선 회귀에 비해 예측 가능성 측면에서 경험적으로 차선책이됩니다. $p$ $n$ $n$ $n$ $p$

능선 회귀 분석의 경우 일반적으로 더 나은 예측 가능성을 제공합니다. 그러나 그 해석 성은 LASSO만큼 좋지 않습니다.

위의 설명은 종종 기계 학습 / 데이터 마이닝의 교과서에서 찾을 수 있습니다. 그러나 나는 여전히 두 가지에 대해 혼란스러워합니다.

특징 범위 (0과 1 사이 또는 평균과 단위 분산이 0 인)를 정규화하고 능선 회귀를 실행하는 경우 계수의 절대 값을 정렬하여 특징의 중요성에 대한 아이디어를 얻을 수 있습니다 (가장 중요한 특징은 계수의 최고 절대 값). 피처를 명시 적으로 선택하지는 않지만 능선 회귀를 사용하면 해석 성이 손실되지 않습니다. 동시에 우리는 여전히 높은 예측력을 달성 할 수 있습니다. 그렇다면 왜 LASSO가 필요합니까? 여기에 뭔가 빠졌습니까?
기능 선택 특성으로 인해 LASSO가 선호됩니까? 이해하기 위해 기능 선택이 필요한 이유는 일반화 및 계산 용이성입니다.

계산의 편의를 위해 NLP 작업을 수행하는 경우 모델에 백만 개의 기능을 모두 제공하지 않기 때문에 계산 비용을 줄이기 위해 분명히 쓸모없는 기능을 먼저 삭제합니다. 그러나 LASSO의 경우 모든 데이터를 모델에 공급 한 후에 만 기능 선택 결과 (스파 스 벡터)를 알 수 있으므로 계산 비용 절감 측면에서 LASSO의 이점을 얻지 못합니다. 예측 결과를 생성하기 위해 기능의 일부 (예 : 1 백만 개 중 500 개) 만 모델에 제공하기 때문에 예측을 조금 더 빠르게 할 수 있습니다.

LASSO가 일반화 능력을 선호하는 경우 능선 회귀 (또는 다른 종류의 정규화)를 사용하여 동일한 목표를 달성 할 수도 있습니다. 왜 우리는 다시 LASSO (또는 탄성 그물)가 필요합니까? 왜 능선 회귀를 고수 할 수 없습니까?

누군가 이것에 약간의 빛을 비출 수 있습니까? 감사!

— 브래드 리
소스

이로 인해 LASSO는 능선 회귀에 비해 예측 가능성 측면에서 경험적으로 차선책이됩니다. 동의하지 않습니다. 나는 LASSO가 일반적으로 예측 측면에서 능선보다 더 나쁘거나 더 좋다고 생각하지 않습니다. @jona가 자신의 답변에서 말했듯이 일부 기능이 실제로 모델에 속하지 않는 상황에 직면 할 수 있으며 LASSO가 더 효과적입니다. 그러나 융기 부분을 사용하면 모든 기능이 포함되고 관련이없는 기능은 예측을 오염시킵니다. 그렇기 때문에 데이터가 과 의 적절한 조합을 결정할 수 있도록 탄력적 인 그물이 필요합니다 .

L_{1}

$L_1$

L_{2}

$L_2$

— Richard Hardy

또한 릿지 회귀에 대해 어떤 교과서가 말하는지 궁금 합니다 (LASSO와 달리 무제한 회귀와는 대조적으로 이해합니다). 아마도 일반적인 것은 그들의 사용에서 그렇게 일반적인 것이 아닙니다. 또한 정규화 방법은 얼마나 많은 해석 성을 제공해야합니까? (또한 Shmueli "설명 또는 예측" (2010)은 직접 관련이 없지만 좋은 작품입니다.)

— Richard Hardy

@RichardHardy, 당신이 맞아요. 지금은 더 신중하게 교과서를 읽고 그 발견 " 어느 능선 회귀를 나 올가미 것이다 보편적으로 지배 다른 "223 페이지, R의 응용 프로그램과 통계 학습에 대한 소개 등, 가레스 제임스

— 브래드 리

@RichardHardy, 원래 나는 LIBLINEAR FAQ에서 비슷한 L1 정규화에 대한 논쟁을 발견했다 : csie.ntu.edu.tw/~cjlin/liblinear/…

— Brad Li

실제 예제에서 릿지와 올가미의 차이가 차이점을 명확히합니까? (그러나 그들은 쉽게 비교할 아니에요 - 플롯에 맞게 대 희소성?)

— 데니스

답변:

1 백만 개의 능선 축소 형이지만 크기는 0이 아닌 기능을 주문하는 경우 일종의 결정을 내려야합니다. n 개의 최상의 예측 변수를 살펴 보지만 n 은 무엇 입니까? LASSO는이 문제를 원칙적이고 객관적인 방식으로 해결합니다. 경로의 모든 단계마다 (예를 들어 교차 검증을 통해 한 지점에 정착하는 경우) 0이 아닌 m 개의 계수 만 있기 때문 입니다.
종종 일부 데이터에서 모델을 학습 한 다음 나중에 아직 수집되지 않은 일부 데이터에 적용합니다. 예를 들어, 50.000.000 개의 이메일에 모델을 적용한 다음 모든 새 이메일에 해당 모델을 사용할 수 있습니다. 사실, 처음 50.000.000 개의 메일에 대한 전체 기능 세트에 적합하지만, 이후의 모든 이메일에 대해 훨씬 더 성 가시고 빠르며 메모리 효율성이 높은 모델을 다루게됩니다. 또한 삭제 된 기능에 대한 정보를 수집 할 필요도 없습니다. 기능을 추출하는 데 비용이 많이 드는 경우 (예 : 유전자형 분석) 매우 유용 할 수 있습니다.

Andrew Gelman에 의해 노출 된 L1 / L2 문제에 대한 또 다른 관점은 문제가 어떤 것인지 직관 할 수 있다는 것입니다. 어떤 상황에서는 현실이 정말로 희박 할 수 있습니다. 아마도 당신은 수백만 개의 유전자를 측정했을 것입니다. 그러나 단지 30.000만이 실제로 도파민 대사를 결정한다는 것은 그럴듯합니다. 이러한 상황에서 L1은 문제에 더 잘 맞을 것입니다.
다른 경우에는 현실이 조밀 할 수 있습니다. 예를 들어, 심리학에서 "모든 것은 모든 것과 어느 정도 상관이 있습니다"(Paul Meehl). 오렌지 대 사과에 대한 기본 설정은 아마 않습니다 어떻게 든 정치적 성향과 상관 관계를 - 심지어 IQ와 함께. 정규화는 여전히 여기에서 의미가 있지만, 진정한 제로 효과는 드 물어야하므로 L2가 더 적합 할 수 있습니다.

— 조나
소스

감사. 당신의 설명은 매우 분명합니다! 나는 여전히 능선의 해석 능력에 대해 약간 혼란스러워합니다. 절대 값을 기준으로 변수를 정렬하여 기능 중요도를 정의 할 수 있습니까? 예를 들어, ridge 을 사용하여 다음 결과를 얻는 경우 기능 중요도 측면에서 이라고 말할 수 있습니다. 우리는 이미 표준화 범위 기능 주어진 . 따라서 우리는 여전히 릿지를 사용하여 해석 성을 얻을 수 있습니다.

y = - 2 x_{1} + 3 x_{2} - x_{3}

$y = -2x_{1} + 3x_{2}-x_{3}$

x_{2} > x_{1} > x_{3}

$x_{2} > x_{1} > x_{3}$

[0, 1]

$[0, 1]$

— 브래드 리

물론 그것들을 정렬 할 수는 있지만, 어떤 부분 집합을보고 있는지 결정해야합니다.

— jona

이를 표현하는 또 다른 방법은 다음과 같습니다. ridge는 기능 선택에 도움 이되고 LASSO 는 기능 선택에 도움이 됩니다 .

— jona

@Brad는 jona (+1)의 탁월한 답변 외에도 표준화 된 회귀 계수로 특징의 중요성을 판단하는 것이 유일한 접근 방법이지만 유일한 접근 방법은 아니라는 점에 유의하십시오. "기능의 중요성"에 대한 다양한 측정법이 있으며 모순 된 결과를 쉽게 제공 할 수 있습니다. 자세한 내용은 stats.stackexchange.com/questions/64010 에서이 스레드를 참조하십시오 .

— amoeba

대상이 많은 기능에 의존하는 경우 해석 성이 떨어집니다. 기능 수를 줄이고 정확도를 유지할 수 있으면 증가합니다. 릿지 정규화에는 기능 수를 줄일 수있는 기능이 없습니다. 그러나 올가미는 능력이 있습니다. 이런 일이 발생하는 방식은 다음 링크에서 시각적으로 설명됩니다.

데이터 과학에 관한 기사를 클릭하십시오

— 솔버 149
소스