다리 회귀와 탄성 그물의 차이점은 비슷한 모양의 처벌을 감안할 때 흥미로운 질문입니다. 한 가지 가능한 방법이 있습니다. 브릿지 회귀 문제를 해결한다고 가정 해 봅시다. 그런 다음 탄력적 그물 솔루션이 어떻게 다른지 물어볼 수 있습니다. 두 손실 함수의 그라디언트를 살펴보면 이에 대해 알 수 있습니다.
다리 회귀
말 독립 변수의 값들을 포함하는 행렬 ( N 포인트 X D 치수)를 , Y는 종속 변수의 값을 포함하는 벡터이고, W는 가중치 벡터이다.엑스엔디와이승
손실 함수는 λ b 크기로 가중치 의 규범에 불이익을줍니다 .ℓ큐λ비
엘비( w ) = ∥ y− X승 ∥22+ λ비∥ w ∥큐큐
손실 함수의 기울기는 다음과 같습니다.
∇승엘비( w ) = − 2 X티(y−Xw)+λbq|w|∘(q−1)sgn(w)
는하다 마드 (즉, 요소 별) 거듭 제곱을 나타내며, i 번째 요소가 v c i 인 벡터를 제공합니다. sgn ( w ) 은 부호 함수 ( w의 각 요소에 적용됨)입니다. q의 일부 값에 대해 기울기가 0에서 정의되지 않을 수 있습니다.v∘civcisgn(w)wq
탄력있는 그물
손실 기능은 다음과 같습니다.
Le(w)=∥y−Xw∥22+λ1∥w∥1+λ2∥w∥22
이것은 처벌 크기와 무게의 규범 λ 1 과 ℓ 2 크기와 규범 λ 2 . 탄성 그물 종이는이 손실 기능을 최소화하기 위해 무게를 두 배로 줄이기 때문에 '순 탄성 그물'을 호출합니다. 이중 수축을 보상하기 위해 나중에 가중치를 다시 조정하는 개선 된 절차를 설명하지만, 순진한 버전을 분석하려고합니다. 명심해야 할 경고입니다.ℓ1λ1ℓ2λ2
손실 함수의 기울기는 다음과 같습니다.
∇wLe(w)=−2XT(y−Xw)+λ1sgn(w)+2λ2w
ℓ 1 페널티 의 절대 값을 구별 할 수 없기 때문에 경우 기울기는 0으로 정의되지 않습니다.λ1>0ℓ1
접근
브릿지 회귀 문제를 해결하는 가중치 를 선택한다고 가정 해 봅시다 . 이는이 시점에서 브리지 회귀 그라디언트가 0임을 의미합니다.w∗
∇wLb(w∗)=−2XT(y−Xw∗)+λbq|w∗|∘(q−1)sgn(w∗)=0⃗
따라서:
2XT(y−Xw∗)=λbq|w∗|∘(q−1)sgn(w∗)
우리는 이것을 탄성 그물 그라데이션으로 대체하여 에서 탄성 그물 그라데이션에 대한 표현을 얻을 수 있습니다. 다행히 더 이상 데이터에 직접 의존하지 않습니다.w∗
∇wLe(w∗)=λ1sgn(w∗)+2λ2w∗−λbq|w∗|∘(q−1)sgn(w∗)
에서 탄성 그물 구배를 보면 다음과 같이 알 수 있습니다. 브리지 회귀가 가중치 w *로 수렴되었다고 가정 할 때 탄성 그물은 이러한 무게를 어떻게 바꾸고 싶습니까?w∗w∗
가장 가파른 상승 방향의 기울기 지점과 기울기 반대 방향으로 이동함에 따라 손실 함수가 감소하기 때문에 원하는 변화의 로컬 방향과 크기를 제공합니다. 그래디언트는 탄성 그물 솔루션을 직접 향하지 않을 수 있습니다. 탄성 순 손실 함수는 볼록 때문에하지만, 로컬 방향 / 크기를 제공 약간 탄성 네트 용액 브리지 회귀 용액 다를 것 방법에 대한 정보.
사례 1 : 위생 검사
( ). 이 경우 브리지 회귀는 페널티 크기가 0이므로 일반 최소 제곱 (OLS)과 같습니다. 탄성 그물은 ℓ 2 규범 만 불이익을 받기 때문에 등가 능선 회귀 입니다. 다음 그림은 서로 다른 브리지 회귀 솔루션과 각각에 대한 탄성 그물 구배의 동작을 보여줍니다.λb=0,λ1=0,λ2=1ℓ2
왼쪽 그림 : 각 차원을 따라 탄력적 순 그래디언트 대 브리지 회귀 가중치
x 축은 브리지 회귀에 의해 선택된 가중치 집합 중 하나의 구성 요소를 나타냅니다 . y 축은 w * 에서 평가 된 탄성 그물 구배의 해당 구성 요소를 나타냅니다 . 가중치는 다차원이지만, 단일 차원을 따라 가중치 / 그라디언트 만보고 있습니다.w∗w∗
오른쪽 그림 : 브리지 회귀 가중치 (2d)에 대한 탄성 순 변경
각 점은 2D 일련의 무게 나타내는 다리의 회귀를 선택합니다. w * 의 각 선택에 대해 , 벡터는 그라디언트의 그라디언트에 비례하는 크기로 탄성 네트 그라디언트의 반대 방향으로 지시됩니다. 즉, 플로팅 된 벡터는 탄성 그물이 브리지 회귀 솔루션을 어떻게 바꾸고 싶어하는지 보여줍니다.w∗w∗
이 그림은 브리지 회귀 (이 경우 OLS)와 비교할 때 탄성 그물 (이 경우 릿지 회귀)이 가중치를 0으로 축소하려고합니다. 원하는 수축량은 무게의 크기에 따라 증가합니다. 가중치가 0이면 솔루션이 동일합니다. 해석은 손실 함수를 줄이기 위해 그래디언트 반대 방향으로 이동하려고합니다. 예를 들어, 브리지 회귀는 가중치 중 하나에 대해 양수 값으로 수렴했다고 가정합니다. 이 시점에서 탄성 그물 구배는 양수이므로 탄성 그물은이 무게를 줄이고 자합니다. 그라디언트 디센트를 사용하는 경우 그라디언트에 비례하여 단계를 밟습니다 (물론, 우리는 0에서 비분 화성으로 인해 탄성 그물을 해결하기 위해 그라디언트 디센트를 기술적으로 사용할 수는 없지만,
사례 2 : 매칭 브리지 및 탄성 그물
( ). 질문의 예와 일치하도록 브리지 페널티 매개 변수를 선택했습니다. 나는 가장 일치하는 탄성 그물 패널티를 제공하기 위해 탄성 그물 매개 변수를 선택했습니다. 여기에서 가중치의 특정 분포를 고려할 때 가장 일치하는 방법은 브릿지와 탄력적 네트 페널티 간의 예상 제곱 차이를 최소화하는 탄력적 네트 페널티 매개 변수를 찾습니다.q=1.4,λb=1,λ1=0.629,λ2=0.355
minλ1,λ2E[(λ1∥w∥1+λ2∥w∥22−λb∥w∥qq)2]
여기에, 나는에 균일 한 분포에서 IID 그려 모든 항목에 가중치를 고려 (즉, 하이퍼 큐브는 원점을 중심 이내). 가장 일치하는 탄성 그물 매개 변수는 2-1000 차원에서 유사했습니다. 치수에 민감하지 않은 것처럼 보이지만 가장 일치하는 모수는 분포의 규모에 따라 다릅니다.[−2,2]
페널티 표면
q=1.4,λb=100λ1=0.629,λ2=0.355
그라디언트 동작
우리는 다음을 볼 수 있습니다 :
- w∗jj
- |w∗j|<0.25
- |w∗j|≈0.25
- 0.25<|w∗j|<1.31
- |w∗j|≈1.31
- |w∗j|>1.31
qλbλ1,λ2
사례 3 : 일치하지 않는 브리지 및 탄성 그물
(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ2ℓ1ℓ2
브리지 회귀에 비해 탄성 그물은 작은 무게를 0으로 줄이고 더 큰 무게를 늘리기를 원합니다. 각 사분면에는 브리지 회귀 및 탄성 그물 솔루션이 일치하는 단일 가중치 집합이 있지만 가중치가 약간 다른 경우 탄성 그물이이 지점에서 멀어 지려고합니다.
(q=1.2,λb=1,λ1=173,λ2=0.816)ℓ1q>1λ1,λ2ℓ2ℓ1 패널티).
브리지 회귀와 관련하여 탄성 그물은 작은 무게를 늘리고 더 큰 무게를 줄이기를 원합니다. 각 사분면에는 브리지 회귀 및 탄성 그물 솔루션이 일치하는 지점이 있으며 탄성 그물은 인접한 지점에서 이러한 가중치를 향해 이동하려고합니다.