올가미 대 릿지를 언제 사용해야합니까?


167

많은 매개 변수를 추정하고 다른 매개 변수에 비해 효과가 거의 없다고 생각하기 때문에 그 중 일부에 불이익을 가하고 싶다고 가정 해보십시오. 어떤 벌칙을 사용할지 어떻게 결정합니까? 능선 회귀는 언제 더 적절합니까? 올가미를 언제 사용해야합니까?


"많은 수의 매개 변수를 추정하고 싶다"고하면 더 정확해질 수 있습니다. 프레임 워크 란 무엇입니까? 선형 회귀라고 생각합니까?
로빈 지라드

2
metaoptimize (l1 = LASSO 및 l2 = ridge를 명심하십시오)와 비슷한 질문이 방금 제기되었습니다 : metaoptimize.com/qa/questions/5205/…
Gael Varoquaux

"lasso vs ridge"는 두 가지 옵션 인 것처럼 말합니다. 일반화 된 더블 파레토, 말굽, bma, 브리지 등은 어떻습니까?
probabilityislogic

답변:


106

능선 회귀는 계수를 제로화 할 수 없습니다. 따라서 모형에 모든 계수를 포함 시키거나 계수를 포함하지 않을 수 있습니다. 반대로 LASSO는 매개 변수 축소와 변수 선택을 자동으로 수행합니다. 일부 공변량의 상관 관계가 높은 경우 LASSO 대신 Elastic Net [3]을 살펴볼 수 있습니다.

개인적으로 Negg (Non-Negative Garotte) [1]을 사용하는 것이 좋습니다. 추정 및 변수 선택 측면에서 일관성이 있습니다 [2]. LASSO 및 능선 회귀와 달리 NNG는 초기 추정값이 필요하며이 추정값은 원점으로 축소됩니다. 원래 논문에서 Breiman은 초기 추정에 최소 제곱 솔루션을 권장합니다 (그러나 능선 회귀 솔루션에서 검색을 시작하고 GCV와 같은 것을 사용하여 페널티 매개 변수를 선택할 수 있습니다).

사용 가능한 소프트웨어 측면에서 MATLAB의 원래 NNG를 구현했습니다 (Breiman의 원래 FORTRAN 코드를 기반으로 함). 다음에서 다운로드 할 수 있습니다.

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

BTW, 베이지안 솔루션을 선호하는 경우 [4,5]를 확인하십시오.

참고 문헌 :

[1] Breiman, L. 음이 아닌 Garrote Technometrics를 사용한 더 나은 부분 집합 회귀 분석, 1995, 37, 373-384

[2] Yuan, M. & Lin, Y. 음이 아닌 가로 테 추정기 왕립 통계 학회지 (Series B), 2007, 69, 143-161

[3] Zou, H. & Hastie, T. 정규 통계 및 탄성 통계를 통한 변수 선택 왕실 통계 학회지 (시리즈 B), 2005, 67, 301-320

[4] Park, T. & Casella, G. The Bayesian Lasso 미국 통계 협회 저널, 2008, 103, 681-686

[5] 경명; 길, J .; Ghosh, M. & Casella, G. Penalized Regression, 표준 오류 및 베이지안 올가미 베이지안 분석, 2010, 5, 369-412


2
Ridge vs Lasso에 대해 더 구체적으로 설명해 주시겠습니까? 자동 변수 선택이 올가미를 선호하는 유일한 이유입니까?
Chogg

42

릿지 또는 올가미는 정규화 된 선형 회귀의 형태입니다. 정규화는 또한 최대 사후 추정법에서 이전과 같이 해석 될 수있다. 이러한 해석 하에서, 융기 부분과 올가미는 입력 및 출력 데이터와 관련이있는 선형 변환 클래스에 대해 다른 가정을합니다. 능선에서 선형 변환 계수는 정규 분포이며 올가미에서는 라플라스 분포입니다. 올가미에서는 계수를 0으로 만드는 것이 더 쉬워 지므로 출력에 기여하지 않는 일부 입력 변수를 쉽게 제거 할 수 있습니다.

실용적인 고려 사항도 있습니다. 능선은 구현하기가 쉽고 계산 속도가 빠르며, 데이터 유형에 따라 중요 할 수 있습니다.

두 가지를 모두 구현 한 경우 데이터의 하위 집합을 사용하여 융기 부분과 올가미를 찾아 왼쪽 데이터에서 얼마나 잘 작동하는지 비교하십시오. 오류는 사용할 아이디어를 제공해야합니다.


8
나는 그것을 얻지 못한다-당신의 계수가 위도 또는 정규 분포인지 어떻게 알 수 있습니까?
ihadanny

1
Ridge 회귀 분석이 더 빠른 이유는 무엇입니까?
Archie

4
@Hbar : "정규화는 최대 사후 추정법에서 이전과 같이 해석 될 수 있습니다.":이 부분을 수학 기호로 더 자세히 설명하거나 최소한 참조를 해주시겠습니까? 감사!
수학 Math

2
@ihadanny 당신은 아마 몰랐을 것입니다. 그것이 핵심입니다. 당신은 후유증 을 유지할 것을 결정할 수 있습니다 .
Firebug

30

일반적으로 중소 효과가 많은 경우에는 융기 부분을 사용해야합니다. 중간 / 대형 효과가있는 변수가 몇 개만 없으면 올가미를 사용하십시오. Hastie, Tibshirani, 프리드먼


4
그러나 변수가 몇 개일 때 중간 / 대형 효과 인 경우 모두 변수를 모델에 유지하고 싶을 수 있습니다. 그 중 하나는 제거 될 수 있으므로 올가미에서는 해당되지 않습니다. 이것을 자세히 설명해 주시겠습니까? 많은 변수가있을 때 우리는 올가미를 사용하여 불필요한 변수를 제거하고 능선을 사용하지 않는다고 생각합니다.
aditya bhandari
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.