LASSO는 벌칙 및 경로 의존성 측면에서 최상의 서브셋 선택과 다릅니다.
최적-서브 세트 선택에서, 아마도 2 개의 예측자가 최상의 성능을 제공했음을 식별하기 위해 CV가 사용되었다. CV 동안 불이익없이 전체 크기 회귀 계수는 포함 할 변수의 수를 평가하는 데 사용되었을 것입니다. 일단 2 개의 예측 변수를 사용하기로 결정한 경우, 2 개의 예측 변수의 모든 조합이 전체 데이터 세트에서 동시에 비교되어 최종 모델의 2를 찾습니다. 이 2 개의 최종 예측 변수에는 마치 전체적으로 유일한 선택 인 것처럼 처벌없이 전체 크기 회귀 계수가 부여됩니다.
LASSO는 회귀 계수의 크기의 합에서 큰 페널티로 시작하고 페널티가 점차 완화되는 것으로 생각할 수 있습니다. 결과적으로 변수는 한 번에 하나씩 입력되며, 이완 동안 각 지점에서 이미 모델에있는 변수의 계수를 늘리거나 다른 변수를 추가하는 것이 더 가치가 있는지 결정합니다. 그러나 2 변수 모델에 도달하면 LASSO가 허용하는 회귀 계수는 2 변수 모델과 3 변수 모델을 비교하는 데 사용되는 표준 비 벌칙 회귀 분석에서와 동일한 변수보다 크기가 더 작습니다. 최상의 서브셋 선택.
이는 최상의 서브 세트 선택에서보다 새로운 변수가 LASSO에 쉽게 입력 될 수있게하는 것으로 생각할 수 있습니다. 경험적으로 LASSO는 포함되어야하는 변수의 수에 대한 불확실성에 대해 잠재적으로 실제보다 낮은 회귀 계수를 교환합니다. 이는 LASSO 모델에 더 많은 변수를 포함시키는 경향이 있으며, 2 개의 변수 만 포함해야한다는 것을 알면 LASSO의 성능이 저하 될 수 있습니다. 그러나 올바른 모형에 얼마나 많은 예측 변수가 포함되어야하는지 이미 알고 있다면 LASSO를 사용하지 않았을 것입니다.
공선성에 의존 한 것은 지금까지 없었으며, 이는 최고의 하위 집단 대 LASSO에서 변수 선택에있어 다양한 유형의 임의의 중재를 이끈다. 이 예에서 best-subset은 가능한 두 예측 변수의 모든 조합을 조사하고 해당 조합 중에서 가장 좋은 조합을 선택했습니다. 따라서 특정 데이터 샘플에 가장 적합한 2가 이깁니다.
한 번에 하나의 변수를 추가 할 때 경로 의존성이있는 LASSO는 다른 변수가 상관 관계 프로세스에서 나중에 입력 될 때 한 변수의 초기 선택이 영향을 줄 수 있음을 의미합니다. 변수가 일찍 입력 된 다음 다른 상관 변수가 입력 될 때 LASSO 계수가 떨어질 수도 있습니다.
실제로, 두 가지 방법 중 하나를 사용하여 최종 모델에서 상관 예측 변수 중에서 선택하는 것은 샘플에 따라 달라지며, 동일한 데이터의 부트 스트랩 샘플에서 이러한 모델 구축 프로세스를 반복하여 확인할 수 있습니다. 예측 변수가 너무 많지 않고 새로운 데이터 세트에 대한 예측에 주요 관심사가있는 경우 모든 예측 변수를 유지하는 경향이있는 능선 회귀가 더 나은 선택 일 수 있습니다.