브리지 페널티 vs. Elastic Net 정규화


22

LASSO ( ) 및 Ridge ( )와 같은 일부 페널티 함수 및 근사값은 잘 연구 되었으며 회귀 분석에서 이러한 점을 비교하는 방법에 대해 살펴 봅니다.L1L2

브리지 페널티에 대해 읽었습니다. 이는 일반 페널티입니다. 이것을 \ gamma = 1 인 LASSO 와 \ gamma = 2 인 Ridge와 비교 하여 특별한 경우를 만듭니다.βjγγ=1γ=2

Wenjiang [ 1 ]은 γ1 때 LASSO 와 브리지 페널티를 비교 했지만, Lsum과 릿지의 조합 인 Elastic Net 정규화와 비교할 수 없었습니다. λ2β2+λ1β1 .

Elastic Net과이 특정 Bridge에는 유사한 구속 조건 형식이 있기 때문에 흥미로운 질문입니다. 다른 측정 항목을 사용하여이 단위 원을 비교하십시오 ( pMinkowski 거리 의 거듭 제곱입니다 ).

Minkowski 거리의 다른 힘을 위해 단위 원

p=1 은 LASSO에, p=2 는 릿지에, p=1.4 는 하나의 가능한 브리지에 해당합니다. Elastic Net은 L1L2 페널티 에 대해 동일한 가중치로 생성되었습니다 . 이 수치는 희소성을 식별하는 데 유용합니다 (예 : Bridge는 명확하게 부족하지만 Elastic Net은 LASSO에서이를 보존합니다).

그렇다면 1 <\ gamma <2 인 Bridge 1<γ<2는 정규화 (희소성 제외)와 관련하여 Elastic Net과 어떻게 비교됩니까? 지도 학습에 특별한 관심이 있으므로 기능 선택 / 가중치에 대한 토론이 적합 할 수 있습니다. 기하학적 논증도 환영합니다.

더 중요한 것은이 경우 Elastic Net이 항상 더 바람직할까요?


[1] Fu, WJ (1998). 페널티 회귀 : 다리 대 올가미. 전산 및 그래픽 통계 저널, 7 (3), 397-416.


편집 :이 질문이 있습니다 사용할 페널티 측정을 결정하는 방법은 무엇입니까? LASSO, Ridge, Bridge 및 Elastic Net을 피상적으로 언급하는 교과서의 일반적인 지침이나 경험 규칙 은 있지만이를 비교하려는 시도는 없습니다.


4
접선 적으로 만 관련되어 있지만 규범 페널티가 계수에 대한 독립적 Laplace 우선 가진 베이지안 회귀의 MAP 추정치이고 가 가우시안 와 동일하다면 브리지 페널티가 이전에 해당하는지 궁금합니다. stats.stackexchange.com/questions/201038/…L 2L1L2
Sycorax는

@RichardHardy 모든 대문자로 올가미를 쓸 필요는 없습니다 . 여기 내 의견을 참조 하십시오 .
아메바는 고

2
브리지 회귀는 볼록하지 않은 회귀를 제공하는 을 허용합니다 . 특히 희소 데이터에서 공변량 그룹을 선택할 때 유용합니다. 또는 일반적으로 당신은 당신이하고자 공변량 그룹, 미리 정의 할 수 L 그래서 어떤 특정 그룹이 큰되지 정례화하고 L 1 희소성을 달성하기 위해 정례화 단일 그룹 계수를. 즉하면 쓰는 경우 β = ( 1 , , K ) 여기서 = ( β I 1 , βγ<1L2L1β=(a1,,ak)당신은 할 수λ1β γ 내가 +λ2Σ내가내가 ν . ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR. 나는 실제로 내가 이라는 것을 분명히해야합니다 . 나는 γ < 1 이 Bridge라고도 몰랐습니다 . γ1γ<1
Firebug

1
@amoeba, 알았어. 게시물 전체에서 대문자 사용이 일관된 경우 일반적으로 편집하지 않지만 이번에는 "LASSO"와 "lasso"가 모두 있었으므로 게시물의 첫 번째 형태 인 "LASSO"로갔습니다. 나는 항상 약어에 대해 생각합니다. 그래서 나는 모든 수도를 사용했습니다. 그러나 당신이 말하는 것처럼, 간단한 "lasso"가 더 나을 수 있습니다.
Richard Hardy

답변:


20

다리 회귀와 탄성 그물의 차이점은 비슷한 모양의 처벌을 감안할 때 흥미로운 질문입니다. 한 가지 가능한 방법이 있습니다. 브릿지 회귀 문제를 해결한다고 가정 해 봅시다. 그런 다음 탄력적 그물 솔루션이 어떻게 다른지 물어볼 수 있습니다. 두 손실 함수의 그라디언트를 살펴보면 이에 대해 알 수 있습니다.

다리 회귀

독립 변수의 값들을 포함하는 행렬 ( N 포인트 X D 치수)를 , Y는 종속 변수의 값을 포함하는 벡터이고, W는 가중치 벡터이다.Xndyw

손실 함수는 λ b 크기로 가중치 의 규범에 불이익을줍니다 .qλb

()=와이엑스22+λ

손실 함수의 기울기는 다음과 같습니다.

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

는하다 마드 (즉, 요소 ​​별) 거듭 제곱을 나타내며, i 번째 요소가 v c i 인 벡터를 제공합니다. sgn ( w ) 은 부호 함수 ( w의 각 요소에 적용됨)입니다. q의 일부 값에 대해 기울기가 0에서 정의되지 않을 수 있습니다.vcivicsgn(w)wq

탄력있는 그물

손실 기능은 다음과 같습니다.

Le(w)=yXw22+λ1w1+λ2w22

이것은 처벌 크기와 무게의 규범 λ 12 크기와 규범 λ 2 . 탄성 그물 종이는이 손실 기능을 최소화하기 위해 무게를 두 배로 줄이기 때문에 '순 탄성 그물'을 호출합니다. 이중 수축을 보상하기 위해 나중에 가중치를 다시 조정하는 개선 된 절차를 설명하지만, 순진한 버전을 분석하려고합니다. 명심해야 할 경고입니다.1λ12λ2

손실 함수의 기울기는 다음과 같습니다.

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

1 페널티 의 절대 값을 구별 할 수 없기 때문에 경우 기울기는 0으로 정의되지 않습니다.λ1>01

접근

브릿지 회귀 문제를 해결하는 가중치 를 선택한다고 가정 해 봅시다 . 이는이 시점에서 브리지 회귀 그라디언트가 0임을 의미합니다.w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

따라서:

2XT(yXw)=λbq|w|(q1)sgn(w)

우리는 이것을 탄성 그물 그라데이션으로 대체하여 에서 탄성 그물 그라데이션에 대한 표현을 얻을 수 있습니다. 다행히 더 이상 데이터에 직접 의존하지 않습니다.w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

에서 탄성 그물 구배를 보면 다음과 같이 알 수 있습니다. 브리지 회귀가 가중치 w *로 수렴되었다고 가정 할 때 탄성 그물은 이러한 무게를 어떻게 바꾸고 싶습니까?ww

가장 가파른 상승 방향의 기울기 지점과 기울기 반대 방향으로 이동함에 따라 손실 함수가 감소하기 때문에 원하는 변화의 로컬 방향과 크기를 제공합니다. 그래디언트는 탄성 그물 솔루션을 직접 향하지 않을 수 있습니다. 탄성 순 손실 함수는 볼록 때문에하지만, 로컬 방향 / 크기를 제공 약간 탄성 네트 용액 브리지 회귀 용액 다를 것 방법에 대한 정보.

사례 1 : 위생 검사

( ). 이 경우 브리지 회귀는 페널티 크기가 0이므로 일반 최소 제곱 (OLS)과 같습니다. 탄성 그물은 2 규범 만 불이익을 받기 때문에 등가 능선 회귀 입니다. 다음 그림은 서로 다른 브리지 회귀 솔루션과 각각에 대한 탄성 그물 구배의 동작을 보여줍니다.λb=0,λ1=0,λ2=12

여기에 이미지 설명을 입력하십시오

왼쪽 그림 : 각 차원을 따라 탄력적 순 그래디언트 대 브리지 회귀 가중치

x 축은 브리지 회귀에 의해 선택된 가중치 집합 중 하나의 구성 요소를 나타냅니다 . y 축은 w * 에서 평가 된 탄성 그물 구배의 해당 구성 요소를 나타냅니다 . 가중치는 다차원이지만, 단일 차원을 따라 가중치 / 그라디언트 만보고 있습니다.ww

오른쪽 그림 : 브리지 회귀 가중치 (2d)에 대한 탄성 순 변경

각 점은 2D 일련의 무게 나타내는 다리의 회귀를 선택합니다. w * 의 각 선택에 대해 , 벡터는 그라디언트의 그라디언트에 비례하는 크기로 탄성 네트 그라디언트의 반대 방향으로 지시됩니다. 즉, 플로팅 된 벡터는 탄성 그물이 브리지 회귀 솔루션을 어떻게 바꾸고 싶어하는지 보여줍니다.ww

이 그림은 브리지 회귀 (이 경우 OLS)와 비교할 때 탄성 그물 (이 경우 릿지 회귀)이 가중치를 0으로 축소하려고합니다. 원하는 수축량은 무게의 크기에 따라 증가합니다. 가중치가 0이면 솔루션이 동일합니다. 해석은 손실 함수를 줄이기 위해 그래디언트 반대 방향으로 이동하려고합니다. 예를 들어, 브리지 회귀는 가중치 중 하나에 대해 양수 값으로 수렴했다고 가정합니다. 이 시점에서 탄성 그물 구배는 양수이므로 탄성 그물은이 무게를 줄이고 자합니다. 그라디언트 디센트를 사용하는 경우 그라디언트에 비례하여 단계를 밟습니다 (물론, 우리는 0에서 비분 화성으로 인해 탄성 그물을 해결하기 위해 그라디언트 디센트를 기술적으로 사용할 수는 없지만,

사례 2 : 매칭 브리지 및 탄성 그물

( ). 질문의 예와 일치하도록 브리지 페널티 매개 변수를 선택했습니다. 나는 가장 일치하는 탄성 그물 패널티를 제공하기 위해 탄성 그물 매개 변수를 선택했습니다. 여기에서 가중치의 특정 분포를 고려할 때 가장 일치하는 방법은 브릿지와 탄력적 네트 페널티 간의 예상 제곱 차이를 최소화하는 탄력적 네트 페널티 매개 변수를 찾습니다.q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

여기에, 나는에 균일 한 분포에서 IID 그려 모든 항목에 가중치를 고려 (즉, 하이퍼 큐브는 원점을 중심 이내). 가장 일치하는 탄성 그물 매개 변수는 2-1000 차원에서 유사했습니다. 치수에 민감하지 않은 것처럼 보이지만 가장 일치하는 모수는 분포의 규모에 따라 다릅니다.[2,2]

페널티 표면

q=1.4,λb=100λ1=0.629,λ2=0.355

여기에 이미지 설명을 입력하십시오

그라디언트 동작

여기에 이미지 설명을 입력하십시오

우리는 다음을 볼 수 있습니다 :

  • wjj
  • |wj|<0.25
  • |wj|0.25
  • 0.25<|wj|<1.31
  • |wj|1.31
  • |wj|>1.31

qλbλ1,λ2

사례 3 : 일치하지 않는 브리지 및 탄성 그물

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

여기에 이미지 설명을 입력하십시오

브리지 회귀에 비해 탄성 그물은 작은 무게를 0으로 줄이고 더 큰 무게를 늘리기를 원합니다. 각 사분면에는 브리지 회귀 및 탄성 그물 솔루션이 일치하는 단일 가중치 집합이 있지만 가중치가 약간 다른 경우 탄성 그물이이 지점에서 멀어 지려고합니다.

(q=1.2,λb=1,λ1=173,λ2=0.816)1q>1λ1,λ221 패널티).

여기에 이미지 설명을 입력하십시오

브리지 회귀와 관련하여 탄성 그물은 작은 무게를 늘리고 더 큰 무게를 줄이기를 원합니다. 각 사분면에는 브리지 회귀 및 탄성 그물 솔루션이 일치하는 지점이 있으며 탄성 그물은 인접한 지점에서 이러한 가중치를 향해 이동하려고합니다.


3
(+1) 큰 답변, 노력해 주셔서 감사합니다! 마지막으로 한 가지를 말씀해 주시겠습니까? "Elastic Net은 항상 더 바람직한가요?" 길 필요가 없습니다.
Firebug

6
교량 회귀 및 탄성 그물은 가중치에 대해 서로 다른 종류의 사전을 갖는 MAP 추정과 동일합니다. 이러한 관점에서 볼 때 데이터 생성 프로세스와 더 잘 일치하고 모든 방법에서 두 가지 방법 중 어느 쪽도 더 나을 수는 없습니다.
user20160

2
+6, 아주 좋은 답변입니다. 위의 의견과 관련하여 이전에 브리지 회귀가 발생하는 것은 무엇입니까? 나는 가우시안 이전의 올가미 이전의 능선과 라플라스에 해당한다는 것을 알고 있습니다. 탄성 그물에 해당하는 것을 얻기 위해 어떻게 든 이러한 사전을 결합 할 수 있습니까?
amoeba는

2
@amoeba이 질문은 저에게 직접 전달 된 것이 아닙니다. 그러나 GeneralAbrial이 질문에서 말했듯이 bridge는 아마도 이전에 서브 보틴에 해당합니다. 예상대로 탄성 그물은 가우시안과 라플라시안 이전에 있습니다. Li, Q. & Lin, N. (2010)을 참조하십시오 . 베이지안 탄성 망. 베이지안 분석, 5 (1), 151-170. Zou, H., & Hastie, T. (2005). 탄성 망을 통한 규칙 화 및 변수 선택. 왕립 통계 학회지 : 시리즈 B (통계 방법론), 67 (2), 301-320. 탄성 그물과 브리지 회귀의 간단한 비교.
Firebug

2
@amoeba는 PCA와 비선형 치수 감소에 대한 다른 게시물과 마찬가지로이 게시물에 현상금을주고 관심을 가져 주셔서 감사합니다. 다른 사람의 질문 / 답변을 홍보하기 위해 담당자를 사용하는 것이 좋습니다.이 게시물이 사람들에게 최소한의 가치가 있다면 기쁩니다. 다른 사람들도 친절한 말에 감사드립니다.
user20160
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.