데이터 행렬이 대각선 일 때 올가미 문제에 대한 닫힌 양식 솔루션

$\newcommand{\diag}{\operatorname{diag}}$ 문제가 있습니다 :

min_{w \in R^{d}} (\frac{1}{n} \sum_{i = 1}^{n} {(⟨ w, x_{i} ⟩ - y_{i})}^{2} + 2 λ | | w | |_{1}),

$\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),$ :

\sum_{i = 1}^{n} x_{i} x_{i}^{T} = diag (σ_{1}^{2}, . . ., σ_{d}^{2}) .

$\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2).$

이 경우 폐쇄 형 솔루션이 있습니까?

나는 그것을 가지고있다 :

(X^{T} X)^{- 1} = diag (σ_{1}^{- 2}, . . ., σ_{d}^{- 2}),

$(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),$ 그래서 대답은 :

w^{j} = y^{j} max {0, 1 - λ \frac{n}{| y^{j} |}},

$w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},$ 에 대한

y^{j} = \sum_{i = 1}^{n} \frac{y_{i} x_{i}^{j}}{σ_{i}^{2}}

$y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}$ 하지만 확실하지 않습니다.

— 아서 디
소스

나는 때 폐쇄 된 형태의 올가미 솔루션의 추기경의 유도 @ 통과거야 $X^T X = I$ 발견 여기에 약간의 수정과 함께.

모든 대해 이라고 가정합니다 . 우리가 을 가지고 있다면 이것은 의 번째 열 이 모두 0 이라는 것을 알려주기 때문에 그런 경우를 제외하는 것이 합리적이라고 생각합니다. 하겠습니다 . 이것은 또한 가 전체 순위이고 OLS 솔루션 가 고유하게 정의 됨을 의미합니다 . $\sigma^2_i > 0$ $i$ $\sigma^2_i = 0$ $i$ $X$ $X^T X = D$ $X$ $\hat \beta$

또한 내가 참조하고있는 답변에서 더 잘 일치하도록 표기법을 수정하려고합니다. 이를 위해

{\hat{β}}_{λ} = {argmin}_{β \in R^{p}} \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\hat \beta_\lambda = \text{argmin}_{\beta \in \mathbb R^p } \frac 12 \vert \vert Y - X\beta\vert \vert^2_2 + \lambda \vert \vert \beta \vert \vert_1.$

이것은 귀하의 문제와 동일하지만 원하는 경우 여기에 더 자세한 내용을 추가 할 수 있습니다.

의 파생에 이어, 우리는

{\hat{β}}_{λ} = argmin \frac{1}{2} (Y^{T} Y - 2 Y^{T} X β + β^{T} X^{T} X β) + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } \frac 12 (Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta) + \lambda \vert \vert \beta \vert \vert_1$

= argmin - Y^{T} X β + \frac{1}{2} β^{T} D β + λ | | β | |_{1} .

$= \text{argmin } -Y^T X \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1.$

OLS 솔루션은 이므로 $\hat \beta = (X^T X)^{-1} X^T Y = D^{-1}X^T Y$

{\hat{β}}_{λ} = argmin - {\hat{β}}^{T} D β + \frac{1}{2} β^{T} D β + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } -\hat \beta^T D \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1$

= argmin \sum_{j = 1}^{p} - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$= \text{argmin } \sum_{j=1}^p -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

각 개별적 으로 최적화 합계의 각 항을 개별적으로 해결할 수 있습니다. 이것은 우리가 를 최소화해야한다는 것을 의미합니다. 여기서 $\beta_j$ $\mathcal L_j$

L_{j} = - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$\mathcal L_j = -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

링크 된 답변에 대한 완전한 분석적 주장에 따르면, 우리는

({\hat{β}}_{λ})_{j} = s g n ({\hat{β}}_{j}) {(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} .

$(\hat \beta_\lambda)_j = \mathrm{sgn}(\hat \beta_j) \left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+.$

또한, 그래서 $\hat \beta = D^{-1} X^T Y \implies \hat \beta_j = \frac{X_j^T Y}{\sigma_j^2}$

{(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} = \frac{1}{σ_{j}^{2}} {(| X_{j}^{T} Y | - λ)}^{+}

$\left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+ = \frac 1 {\sigma^2_j} \left(|X_j^T Y| - \lambda\right)^+$

따라서 예측 행렬 는 설계 행렬이 직교가 아닌 직교 정규형 일 때 정확히 0으로 표시됩니다. 따라서이 경우 인 경우 변수 선택은 인 경우와 다르지 않지만 실제 계수 는 예측 변수 분산에 따라 조정됩니다. $X_j$ $X^T X = D \neq I$ $X^T X = I$ $\hat \beta_\lambda$

마지막으로이 솔루션을 여러분의 것과 유사한 솔루션으로 바꾸겠습니다. 이는 에 를 얻기 위해 무언가를 곱해야한다는 것을 의미합니다 . 경우 다음 우리가 그 $\hat \beta$ $\hat \beta_\lambda$ $(\hat \beta_\lambda)_j \neq 0$

({\hat{β}}_{λ})_{j} = sgn ({\hat{β}}_{j}) (| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}}) = {\hat{β}}_{j} - sgn ({\hat{β}}_{j}) \frac{λ}{σ_{j}^{2}}

$(\hat \beta_\lambda)_j = \text{sgn}(\hat \beta_j) \left( \vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \right) = \hat \beta_j - \text{sgn}(\hat \beta_j) \frac{\lambda}{\sigma^2_j}$

= {\hat{β}}_{j} (1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})

$= \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)$

이후 . $\frac{a}{\vert a \vert} = \text{sgn}(a)$

것을주의 정확하게 $(\hat \beta_\lambda)_j = 0$

| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}} \leq 0 ⟺ | {\hat{β}}_{j} | \leq \frac{λ}{σ_{j}^{2}} ⟺ 1 \leq \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} ⟺ 1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} \leq 0,

$\vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \leq 0 \iff \vert \hat \beta_j \vert \leq \frac{\lambda}{\sigma^2_j} \iff 1 \leq \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \iff 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \leq 0,$

우리는 다르게 표현할 수있는 것을 알 등 $\hat \beta_\lambda$

({\hat{β}}_{λ})_{j} = {\hat{β}}_{j} {(1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})}^{+} .

$(\hat \beta_\lambda)_j = \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)^+.$

그래서 이것은 당신이 가진 것과 매우 가깝지만 정확히 동일하지는 않습니다.

가능한 경우 잘 알려진 라이브러리에 대해 이와 같은 파생을 항상 확인하고 싶습니다. 그래서 R의 예는 다음과 같습니다.

## generating `x`
set.seed(1)
n = 1000
p = 5
sigma2s = 1:p
x = svd(matrix(rnorm(n * p), n, p))$u %*% diag(sqrt(sigma2s))

## check this
# t(x) %*% x

## generating `y`
betas = 1:p
y = x %*% betas + rnorm(nrow(x), 0, .5)

lambda = 2

## using a well-known library to fit lasso
library(penalized)
penalized(y, x, lambda1 = lambda)@penalized


## using closed form solution
betahat = lm(y ~ x - 1)$coef
ifelse(betahat > 0, 1, -1) * sapply(abs(betahat) - lambda / sigma2s, function(v) max(c(0, v)))

— jld
소스