최소 제곱 계수를 버림으로써 희소성

14

정규화 된 에 대해 를 회귀한다고 가정합니다. $Y$ $X$ 싶지만 스파 스 솔루션을 . 회귀 후 왜 가장 작은 크기의 계수를 폐기 할 수 없습니까?

기록을 위해 LARS 및 LASSO 방법에 대해 들었고 종종 사용합니다. 위의 접근 방식이 적용되지 않는 이유가 궁금합니다.

regression regression-coefficients

— 캠 데이비슨 필론
소스

2

+1이 간단한 질문은 힘들 수 있습니다. 기본 개념에 대해 생각하기가 어렵습니다.

— whuber

14

이면 아무런 문제가 없습니다 $X$ 가 정규 직교 . 그러나 설명 변수 사이에 강한 상관 관계가있을 수 있으므로 일시 중지해야합니다.

$X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ $X_2$ 거의 평행을 이루고 있습니다. 그 평면의 구성 요소는 모두 큰 계수를 가져서 를 떨어 뜨립니다. $X_3$

지오메트리는 시뮬레이션으로 다시 만들 수 있습니다.다음 R계산에 의해 수행 .

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

$X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ $0.38$

산점도 행렬은 다음을 모두 보여줍니다.

x1, x2, x3 및 y의 산점도 행렬

$x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

— 우버
소스

2

추정 계수가 0에 가까우 고 데이터가 정규화되면 변수를 버림으로써 예측이 손상되지 않을 것으로 보입니다. 계수가 통계적으로 유의하지 않은 경우에는 문제가없는 것 같습니다. IV는 상관 관계가 있으며 IV를 제거하면 다른 계수가 변경 될 수 있습니다. 이런 식으로 여러 변수를 다시 시작하면 더 위험합니다. 부분 집합 선택 절차는 이러한 문제를 피하고 변수를 포함하고 제외하기위한 합리적인 기준을 사용하도록 설계되었습니다. Frank Harrell에게 물어 보면 단계적인 절차에 위배됩니다. LARS와 LASSO는 두 가지 매우 현대적인 방법입니다. 그러나 너무 많은 변수의 도입을 방해하는 정보 기준을 포함하여 다른 많은 것들이 있습니다.

많은 문헌으로 신중하게 연구 된 부분 집합 선택 절차를 시도하면 통계가 유의미하게 다른 것으로 테스트에 실패한 경우 특히 작은 계수로 변수를 철회하는 솔루션으로 이어질 수 있습니다.

— 마이클 R. 체 르닉
소스