LASSO는 공선 예측 변수 중에서 어떻게 선택합니까?


11

GLM LASSO 모델이 상관 관계가 높은 그룹 중에서 특정 예측 변수를 선택하는 이유와 최상의 하위 집합 기능 선택과 다르게 예측하는 이유에 대한 직관적 인 답변을 찾고 있습니다.

1996 년 Tibshirani의 그림 2에 표시된 LASSO의 구조에서 LASSO 가 더 큰 분산을 갖는 예측 변수를 선택한다고 믿었습니다.

이제 로지스틱 회귀 모델에 대해 2 개의 예측 변수를 얻기 위해 10 배 CV로 최상의 부분 집합 선택을 사용하고이 두 예측 변수가 최적 (0-1 손실 의미)이라는 합리적인 사전 지식을 가지고 있다고 가정합니다.

LASSO 솔루션은 예측 오류가 큰 덜 포용적인 (5 개의 예측 변수) 솔루션을 선호합니다. 직관적으로, 차이가 발생하는 원인은 무엇입니까? LASSO가 상관 예측 변수 중에서 선택하는 방식 때문입니까?

답변:


5

LASSO는 벌칙 및 경로 의존성 측면에서 최상의 서브셋 선택과 다릅니다.

최적-서브 세트 선택에서, 아마도 2 개의 예측자가 최상의 성능을 제공했음을 식별하기 위해 CV가 사용되었다. CV 동안 불이익없이 전체 크기 회귀 계수는 포함 할 변수의 수를 평가하는 데 사용되었을 것입니다. 일단 2 개의 예측 변수를 사용하기로 결정한 경우, 2 개의 예측 변수의 모든 조합이 전체 데이터 세트에서 동시에 비교되어 최종 모델의 2를 찾습니다. 이 2 개의 최종 예측 변수에는 마치 전체적으로 유일한 선택 인 것처럼 처벌없이 전체 크기 회귀 계수가 부여됩니다.

LASSO는 회귀 계수의 크기의 합에서 큰 페널티로 시작하고 페널티가 점차 완화되는 것으로 생각할 수 있습니다. 결과적으로 변수는 한 번에 하나씩 입력되며, 이완 동안 각 지점에서 이미 모델에있는 변수의 계수를 늘리거나 다른 변수를 추가하는 것이 더 가치가 있는지 결정합니다. 그러나 2 변수 모델에 도달하면 LASSO가 허용하는 회귀 계수는 2 변수 모델과 3 변수 모델을 비교하는 데 사용되는 표준 비 벌칙 회귀 분석에서와 동일한 변수보다 크기가 더 작습니다. 최상의 서브셋 선택.

이는 최상의 서브 세트 선택에서보다 새로운 변수가 LASSO에 쉽게 입력 될 수있게하는 것으로 생각할 수 있습니다. 경험적으로 LASSO는 포함되어야하는 변수의 수에 대한 불확실성에 대해 잠재적으로 실제보다 낮은 회귀 계수를 교환합니다. 이는 LASSO 모델에 더 많은 변수를 포함시키는 경향이 있으며, 2 개의 변수 만 포함해야한다는 것을 알면 LASSO의 성능이 저하 될 수 있습니다. 그러나 올바른 모형에 얼마나 많은 예측 변수가 포함되어야하는지 이미 알고 있다면 LASSO를 사용하지 않았을 것입니다.

공선성에 의존 한 것은 지금까지 없었으며, 이는 최고의 하위 집단 대 LASSO에서 변수 선택에있어 다양한 유형의 임의의 중재를 이끈다. 이 예에서 best-subset은 가능한 두 예측 변수의 모든 조합을 조사하고 해당 조합 중에서 가장 좋은 조합을 선택했습니다. 따라서 특정 데이터 샘플에 가장 적합한 2가 이깁니다.

한 번에 하나의 변수를 추가 할 때 경로 의존성이있는 LASSO는 다른 변수가 상관 관계 프로세스에서 나중에 입력 될 때 한 변수의 초기 선택이 영향을 줄 수 있음을 의미합니다. 변수가 일찍 입력 된 다음 다른 상관 변수가 입력 될 때 LASSO 계수가 떨어질 수도 있습니다.

실제로, 두 가지 방법 중 하나를 사용하여 최종 모델에서 상관 예측 변수 중에서 선택하는 것은 샘플에 따라 달라지며, 동일한 데이터의 부트 스트랩 샘플에서 이러한 모델 구축 프로세스를 반복하여 확인할 수 있습니다. 예측 변수가 너무 많지 않고 새로운 데이터 세트에 대한 예측에 주요 관심사가있는 경우 모든 예측 변수를 유지하는 경향이있는 능선 회귀가 더 나은 선택 일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.