모델의 교차 검증 예측 오차 측면에서 순방향 선택 / 후진 제거에 비해 LASSO의 우수성


10

나는 원래의 풀 모델에서

  • 앞으로 선택
  • 뒤로 제거
  • L1 벌칙 기술 (LASSO)

순방향 선택 / 역방향 제거를 사용하여 얻은 모델의 경우, CVlm에서 DAAG제공되는 패키지를 사용 하여 교차 검증 된 예측 오차 추정치를 얻었 습니다 R. LASSO를 통해 선택된 모델에는을 사용했습니다 cv.glm.

LASSO에 대한 예측 오차는 다른 것들에 대해 얻은 것보다 작았 다. 따라서 LASSO를 통해 얻은 모델은 예측 용량 및 변동성 측면에서 더 나은 것으로 보입니다. 이것은 항상 발생하는 일반적인 현상입니까 아니면 문제에 특정한 것입니까? 이것이 일반적인 현상이라면 이것에 대한 이론적 추론은 무엇입니까?


3
부적절한 분류 / 정확도와 같은 부적절한 정확도 점수 규칙을 사용하지 마십시오. 이는 부적절한 예측 / 모델에 대한 보상입니다. 그리고 L2 규범과 비교하십시오. 나는 당신이 시도한 3 가지 접근법보다 더 나을 것이라고 확신합니다.
Frank Harrell

답변:


16

LASSO 및 전진 / 후진 모델 선택에는 강점과 한계가 있습니다. 더 이상 쓸만한 추천을 할 수 없습니다. 이를 해결하기 위해 항상 시뮬레이션을 탐색 할 수 있습니다.

둘 다 차원의 차원에서 이해 될 수있다 : 모델 파라미터 의 수 와 의 관측 수를 참조. 이전 모델 선택을 사용하여 모델을 피팅 할 수 있었다면 아마도 이 없었을 것입니다 . 이 경우 "최적의 적합"모델은 내부적으로 검증 될 때 모든 매개 변수를 사용하는 모델입니다! 이것은 단순히 과적 합의 문제입니다.

모델 평가를 위해 분할 샘플 교차 검증 (CV)을 사용하여 과적 합이 해결됩니다. 당신이 이것을 설명하지 않았기 때문에 나는 당신이 그것을하지 않았다고 가정합니다. 단계별 모델 선택과 달리 LASSO는 튜닝 매개 변수를 사용하여 모델의 매개 변수 수에 불이익을줍니다. 튜닝 매개 변수를 수정하거나 복잡한 반복 프로세스를 사용하여이 값을 선택할 수 있습니다. 기본적 으로 LASSO는 후자를 수행합니다. 이것은 예측의 MSE를 최소화하기 위해 CV로 수행됩니다. 이러한 정교한 기술을 사용하는 단계별 모델 선택의 구현에 대해 알지 못합니다 .BIC조차도 기준으로 내부 유효성 검사 편향이 있습니다. 내 계정에 따르면 LASSO는 "즉시 사용 가능한"단계별 모델 선택보다 자동으로 LASSO를 활용할 수 있습니다.

마지막으로, 단계적 모델 선택은 다른 회귀자를 포함 / 제외하기위한 다른 기준을 가질 수 있습니다. 특정 모델 매개 변수의 Wald 테스트 또는 결과 모델 R ^ 2에 p- 값을 사용하는 경우 내부 검증 편향 때문에 (대부분 CV로 해결할 수 있음) 제대로 수행되지 않습니다. 이것이 여전히 그러한 모델이 구현되는 방식이라는 것이 놀랍습니다. AIC 또는 BIC는 모델 선택을위한 훨씬 나은 기준입니다.

각 방법에는 여러 가지 문제가 있습니다. 단계적 모델 선택의 문제는 LASSO의 문제보다 훨씬 잘 이해되고 훨씬 나쁩니다. 귀하의 질문과 함께 볼 수있는 주요 문제는 기능 선택 도구를 사용하여 예측 을 평가 한다는 것 입니다. 그것들은 별개의 작업입니다. LASSO는 피처 선택 또는 희소 모델 선택에 더 좋습니다. 릿지 회귀는 모든 변수를 사용하므로 더 나은 예측을 제공 할 수 있습니다.

LASSO의 강점은 모델을 추정 할 수 있다는 것 입니다. 두 경우 모두,이 모델은 소수의 매우 강력한 예측 변수가있는 경우에만 예측에 효과적 일 수 있습니다. 결과는 더 능가 할 것 증폭 많은 약한 예측, 다음 능선 회귀 또는 포기할 /에 의해 예측 된 경우 모두 긴 슛을 앞으로 단계적 회귀와 LASSO을. LASSO는 순차 단계적 회귀보다 훨씬 빠릅니다.

피처 선택과 예측 사이에는 분명히 많은 중복이 있지만, 렌치가 망치로 얼마나 잘 작동하는지는 결코 말하지 않습니다. 일반적으로 희소 한 수의 모델 계수와 을 사용한 예측의 경우 단계별 모델 선택보다 LASSO를 선호합니다.


4

일부 기준에 따라 예측 변수의 하위 집합을 선택하려고합니다. 샘플 내 AIC이거나 조정 된 R ^ 2 또는 교차 검증 일 수 있습니다.

모든 단일 예측 변수 부분 집합 조합을 테스트하고 가장 적합한 부분 집합을 선택할 수 있습니다. 하나

  • 매개 변수의 조합 폭발로 인해 시간이 많이 걸립니다.
  • 해를 제공하는 모든 예측 변수 조합을 테스트한다는 점에서 관측 값보다 많은 매개 변수가있는 경우 작동

앞으로 단계별 선택을 사용할 수 있습니다

  • 시간이 덜 걸리지 만 절대적으로 최상의 조합을 얻지 못할 수 있습니다 (예 : esp). 예측 변수가 서로 관련되어있는 경우 (예측 변수 하나를 선택하면 다른 예측 변수 2 개를 추가해도 개선 효과를 얻지 못할 수 있음)
  • 관측치보다 많은 매개 변수가있는 경우에도 작동

뒤로 제거를 사용할 수 있습니다

  • 관측치보다 더 많은 매개 변수가 있고 단일 좋은 시작점이 없으면 작동하지 않습니다 (이론적으로 모든 유효한 시작점에서 시작하여 뒤로 작업하고 가장 좋은 것을 선택할 수는 있지만 일반적으로 뒤로 제거가 의미하는 것은 아닙니다)
  • 앞으로 단계적으로, 모든 서브 세트보다 시간이 덜 걸리지 만, 절대적으로 최상의 조합을 얻지 못할 수 있습니다. esp. 예측 변수가 상관 될 때

LASSO를 사용할 수 있습니다

  • 관측치보다 많은 매개 변수가있는 경우에도 작동
  • 많은 매개 변수와 하위 집합의 조합 폭발이있을 때 CPU 효율
  • 정규화 추가

CAS의 데이터에서 LASSO의 성능이 향상된 이유에 대한 질문

  • 한 가지 가능성은 위에서 설명한 경로 의존성입니다. LASSO가 더 나은 하위 집합을 찾을 수 있습니다. 아마도 운이 좋았을 것입니다 .LASSO는 일반적으로 때로는 더 나은 하위 집합을 얻습니다. 확실하지 않습니다. 아마도 그 주제에 관한 문헌이있을 것입니다.
  • 또 다른 가능성은 LASSO 정규화로 과적 합을 막을 수 있으므로 LASSO는 CV / out of sample에서 더 잘 수행됩니다.

결론적으로 LASSO는 특히 예측 변수가 많은 경우 정규화 및 효율적인 하위 집합 선택을 제공합니다.

BTW는 LASSO를 수행하고 CV (가장 일반적)를 사용하지만 AIC 또는 다른 기준을 사용하여 모델을 선택할 수 있습니다. L1 정규화를 사용하고 구속 조건없이 모델을 실행 한 다음 AIC가 최소 또는 CV 오류 또는 선택한 기준에 도달 할 때까지 구속 조건을 점차 강화하십시오. http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html을 참조 하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.