왜 올가미에 대한 일반 하위 그라데이션 방법 대신에 근위 그라데이션이 하강합니까?


9

바닐라 하위 그라데이션 방법을 통해 Lasso를 해결하려고했습니다. 그러나 Proximal gradient descent 사용을 제안하는 사람들을 읽었습니다. 누군가가 바닐라 하위 그라데이션 방법 대신 근위 GD가 올가미에 사용되는 이유를 강조 할 수 있습니까?

답변:


14

하위 구배 방법을 사용하여 올가미에 대한 대략적인 솔루션을 찾을 수 있습니다. 예를 들어 다음과 같은 손실 함수를 최소화하려고한다고 가정합니다.

에프(;λ)=와이엑스22+λ1

페널티 항의 기울기는 λ ...에 대한 나는<0λ ...에 대한 나는>0하지만 위약금 조건은 0. 대신, 우리는 subgradient를 사용할 수 있습니다λsgn()동일하지만 값이 0 ...에 대한 나는=0.

손실 함수에 해당하는 하위 그라디언트는 다음과 같습니다.

(;λ)=2엑스(와이엑스)+λsgn()

그라디언트 디센트와 유사한 접근 방식을 사용하여 손실 함수를 최소화 할 수 있지만, 하위 그라디언트 (이를 제외한 모든 곳에서 그라디언트와 동일)0그라디언트가 정의되지 않은 경우). 이 솔루션은 실제 올가미 솔루션에 매우 가까울 수 있지만 정확한 0을 포함하지 않을 수 있습니다. 가중치가 0이어야하는 경우에는 값이 매우 작습니다. 이러한 희소성이 부족하기 때문에 올가미에 하위 그라데이션 방법을 사용하지 않아야합니다. 전용 솔버는 문제 구조를 활용하여 계산 효율적인 방식으로 진정한 희소 솔루션을 생성합니다. 이 포스트 는 희소 솔루션을 생성하는 것 외에도 전용 방법 (근위 기울기 방법 포함)이 하위 그라데이션 방법보다 수렴 속도가 더 빠릅니다. 그는 몇 가지 언급을합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.