LASSO 및 전진 / 후진 모델 선택에는 강점과 한계가 있습니다. 더 이상 쓸만한 추천을 할 수 없습니다. 이를 해결하기 위해 항상 시뮬레이션을 탐색 할 수 있습니다.
둘 다 차원의 차원에서 이해 될 수있다 : 모델 파라미터 의 수 와 의 관측 수를 참조. 이전 모델 선택을 사용하여 모델을 피팅 할 수 있었다면 아마도 이 없었을 것입니다 . 이 경우 "최적의 적합"모델은 내부적으로 검증 될 때 모든 매개 변수를 사용하는 모델입니다! 이것은 단순히 과적 합의 문제입니다.피엔p ≫ n
모델 평가를 위해 분할 샘플 교차 검증 (CV)을 사용하여 과적 합이 해결됩니다. 당신이 이것을 설명하지 않았기 때문에 나는 당신이 그것을하지 않았다고 가정합니다. 단계별 모델 선택과 달리 LASSO는 튜닝 매개 변수를 사용하여 모델의 매개 변수 수에 불이익을줍니다. 튜닝 매개 변수를 수정하거나 복잡한 반복 프로세스를 사용하여이 값을 선택할 수 있습니다. 기본적 으로 LASSO는 후자를 수행합니다. 이것은 예측의 MSE를 최소화하기 위해 CV로 수행됩니다. 이러한 정교한 기술을 사용하는 단계별 모델 선택의 구현에 대해 알지 못합니다 .BIC조차도 기준으로 내부 유효성 검사 편향이 있습니다. 내 계정에 따르면 LASSO는 "즉시 사용 가능한"단계별 모델 선택보다 자동으로 LASSO를 활용할 수 있습니다.
마지막으로, 단계적 모델 선택은 다른 회귀자를 포함 / 제외하기위한 다른 기준을 가질 수 있습니다. 특정 모델 매개 변수의 Wald 테스트 또는 결과 모델 R ^ 2에 p- 값을 사용하는 경우 내부 검증 편향 때문에 (대부분 CV로 해결할 수 있음) 제대로 수행되지 않습니다. 이것이 여전히 그러한 모델이 구현되는 방식이라는 것이 놀랍습니다. AIC 또는 BIC는 모델 선택을위한 훨씬 나은 기준입니다.
각 방법에는 여러 가지 문제가 있습니다. 단계적 모델 선택의 문제는 LASSO의 문제보다 훨씬 잘 이해되고 훨씬 나쁩니다. 귀하의 질문과 함께 볼 수있는 주요 문제는 기능 선택 도구를 사용하여 예측 을 평가 한다는 것 입니다. 그것들은 별개의 작업입니다. LASSO는 피처 선택 또는 희소 모델 선택에 더 좋습니다. 릿지 회귀는 모든 변수를 사용하므로 더 나은 예측을 제공 할 수 있습니다.
LASSO의 강점은 모델을 추정 할 수 있다는 것 입니다. 두 경우 모두,이 모델은 소수의 매우 강력한 예측 변수가있는 경우에만 예측에 효과적 일 수 있습니다. 결과는 더 능가 할 것 증폭 많은 약한 예측, 다음 능선 회귀 또는 포기할 /에 의해 예측 된 경우 모두 긴 슛을 앞으로 단계적 회귀와 LASSO을. LASSO는 순차 단계적 회귀보다 훨씬 빠릅니다.p ≫ n
피처 선택과 예측 사이에는 분명히 많은 중복이 있지만, 렌치가 망치로 얼마나 잘 작동하는지는 결코 말하지 않습니다. 일반적으로 희소 한 수의 모델 계수와 을 사용한 예측의 경우 단계별 모델 선택보다 LASSO를 선호합니다.p ≫ n