LASSO 모델에 ILS (Iteratively Reweighted Least Squares) 방법을 적용하는 방법은 무엇입니까?

12

IRLS 알고리즘을 사용하여 로지스틱 회귀를 프로그래밍했습니다 . 올바른 기능을 자동으로 선택하기 위해 LASSO 처벌 을 적용하고 싶습니다 . 각 반복에서 다음이 해결됩니다.

(X^{T} W X) δ \hat{β} = X^{T} (y - p)

$\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)}$

하자 음수가 아닌 실수합니다. 나는 The Elements of 에서 제안한 것처럼 요격을 처벌하지 않습니다 . 통계 학습 . 이미 0의 계수에 대한 차이. 그렇지 않으면 오른쪽에서 용어를 뺍니다. $\lambda$

X^{T} (y - p) - λ \times s i g n (\hat{β})

$\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)}$

그러나 IRLS 알고리즘의 수정이 확실하지 않습니다. 올바른 방법입니까?

편집 : 그것에 대해 확신하지 못했지만 여기에 마침내 생각해 낸 해결책 중 하나가 있습니다. 흥미로운 점은이 솔루션이 현재 LASSO에 대해 이해하고있는 것입니다. 각 반복마다 실제로 한 단계가 아닌 두 단계 가 있습니다 .

첫 번째 단계는 이전과 동일합니다. 알고리즘을 반복 합니다 (위의 기울기 공식에서 것처럼). $\lambda=0$
두 번째 단계는 새로운 단계입니다. 첫 번째 단계에서 얻은 벡터 각 구성 요소에 소프트 임계 값을 적용합니다 ( 에 해당하는 구성 요소 제외 ) . 이것을 반복 소프트 임계 값 알고리즘이라고 합니다. $\beta_0$ $\beta$

\forall i \geq 1, β_{i} \leftarrow s i g n (β_{i}) \times max (0, | β_{i} | - λ)

$\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)$

— 웍
소스

여전히 IRLS를 적용하여 더 나은 수렴을 얻을 수 없었습니다. : '(

— Wok

12

이 문제는 일반적으로 좌표 하강에 의해 적합하게 해결됩니다 ( 여기 참조 ). 이 방법은 수치 적으로보다 안전하고 알고리즘 적으로 구현하기가 더 쉽고 일반적인 모델 배열 (Cox 회귀 포함)에 적용 할 수 있습니다. R 구현은 R 패키지 glmnet 에서 사용 가능합니다 . 코드는 오픈 소스 (부분적으로 C로, 부분적으로 R로)이므로 청사진으로 사용할 수 있습니다.

— 사용자 603
소스

@wok 참고로, scikit.learn 패키지는 이런 종류의 것들에 대해 파이썬에서 효율적인 구현을 제공합니다.

— chl

좌표 하강 알고리즘은 흥미 롭습니다. 감사. 아직도 생각 해봐

— Wok

5

LASSO 손실 함수는 각 축을 따라 0에서 불연속성을 가지므로 IRLS에 문제가 있습니다. 순차 최소 최적화 (SMO) 유형 접근 방식이 매우 효과적이라는 것을 알았습니다.

http://bioinformatics.oxfordjournals.org/content/19/17/2246

MATLAB 소프트웨어가 포함 된 버전은

http://bioinformatics.oxfordjournals.org/content/22/19/2348

소프트웨어는 여기에 있습니다 :

http://theoval.cmp.uea.ac.uk/~gcc/cbl/blogreg/

기본 아이디어는 계수를 한 번에 하나씩 최적화하고 한 번에 한 계수 씩 불연속을 교차하는지 테스트하여 스칼라 최적화를 수행 할 때 쉽게 수행 할 수 있습니다. 느리게 들릴지 모르지만 실제로는 매우 효율적입니다. (그 이후로 더 나은 알고리즘이 개발되었을 것으로 예상하지만, Keerthi 또는 Chih-Jen Lin이 아마도 그런 종류의 전문가입니다.)

— 디크 란 유대류
소스

감사. 나는 이것을 읽고 그것에 대해 생각하고 있습니다. 그러나 이것은 현재 알고리즘을 크게 수정 한 것입니다.

— Wok

4

LASSO에 대한 IRLS 기반 알고리즘 인 효율적인 L1 정규화 된 로지스틱 회귀 분석을 확인할 수 있습니다. 구현과 관련하여 링크가 유용 할 수 있습니다 (http://ai.stanford.edu/~silee/softwares/irlslars.htm).

0

LASSO 문제에 대한 IRLS는 다음과 같습니다.

\arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{1} = \arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ x^{T} W x

$\arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda \left\| x \right\|_{1} = \arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda {x}^{T} W {x}$

여기서 대각 행렬 - . 이것은 에서 온다 . $W$ ${W}_{i, i} = \frac{1}{ \left| {x}_{i} \right| }$
$\left\| x \right\|_{1} = \sum_{i} \left| {x}_{i} \right| = \sum_{i} \frac{ {x}_{i}^{2} } { \left| {x}_{i} \right| }$

위의 내용은 Tikhonov Regularization 입니다.
이후 그러나, 에 따라 하나 반복적으로 해결한다 (또한 이것의 유도체, 노프 정규화 (regularization)의 2 인자가 취소 에 대해서 채 상수 것은 는 와 같습니다 ) : $W$ $x$ ${x}^{T} W x$ $x$ $x$ $\operatorname{diag} \left( \operatorname{sign} \left( x \right) \right)$ $W x$

x^{k + 1} = {(A^{T} A + λ W^{k})}^{- 1} A^{T} b

${x}^{k + 1} = \left( {A}^{T} A + \lambda {W}^{k} \right)^{-1} {A}^{T} b$

여기서 . ${W}_{i, i}^{K} = \frac{1}{ \left| {x}^{k}_{i} \right| }$

초기화 할 수 있습니다 . $W = I$

이 값은 의 큰 값에는 적합하지 않으므로 ADMM 또는 Coordinate Descent를 사용하는 것이 좋습니다. $\lambda$

— 로이
소스