LASSO 변수 선택 후 OLS를 수행하는 것이 어떤 의미가 있습니까?


20

최근에 적용된 계량 경제학 문헌에서, 특징 선택 문제를 다룰 때, 선택된 변수를 사용하여 LASSO를 수행 한 다음 OLS 회귀를 수행하는 것은 드문 일이 아니라는 것을 발견했습니다.

그러한 절차의 유효성을 어떻게 검증 할 수 있는지 궁금했습니다. 변수 생략과 같은 문제가 발생합니까? 더 효율적이거나 결과가 더 해석 가능하다는 증거가 있습니까?

다음은 몇 가지 관련 토론입니다.

LASSO를 사용한 변수 선택

Lasso / Random을 사용하여 변수 선택 후 트리 사용

지적 된 바와 같이, 그러한 절차가 일반적으로 정확하지 않다면, 왜 아직도 그렇게 많은 연구가 있습니까? LASSO 추정기의 불안한 특성과 OLS에 대한 사람들의 애정으로 인해 이것이 율법, 타협 솔루션이라고 말할 수 있습니까?


LASSO를 수행 한 후 "OLS 회귀"를 수행하는 것이 무엇을 의미하는지 설명 할 수 있습니까? 구체적으로,이 OLS 단계는 LASSO가 추정하지 않았다고 추정하려고하는 것은 무엇입니까?
whuber

2
이 주제에 관한 최근 작업 논문이 몇 개 있습니다. 많은 사람들이 유효한 변수 세트가 희박하다는 가정을 요구하는 것 같습니다. 그 가정이 유지되지 않는다면, 생략 된 변수 바이어스가 존재할 것입니다. 그리고 사람들은 샘플 마진 효과에서 편견없이 코프를 해석하기 때문에 ols를 좋아합니다. 계량 경제학은 그 패러다임에 상당히 밀착되어 있습니다.
generic_user

4
(무료 온라인) 최근 LASSO 책, 섹션 11.4 나타나면이 문제를 해결합니다. 나는 구체적으로이 글을 읽을하지 않은,하지만 감안할 때 "말에 의해 도입의 끝 [올가미는 제대로의 지원을 복구하는 β *을 , 우리가 추정 할 수 β는 * 단순히 일반 최소 제곱를 수행하여 ... 아주 잘 회귀는이 하위 집합으로 제한되었습니다. " β^ββ
GeoMatt22

답변:


12

며칠 전에 비슷한 질문이 있었으며 관련 참조가있었습니다.

  • Belloni, A., Chernozhukov, V. 및 Hansen, C. (2014) "고차원 제어 중 선택 후 처리 효과에 대한 추론", 경제 연구 검토, 81 (2), pp. 608-50 ( link )

적어도 저에게는 논문이 비교적 읽기 쉽지만 비교적 단순한이 증거는 상당히 정교하기 때문입니다. y i = α T i + X ' i β + ϵ i 와 같은 모형 추정에 관심이있는 경우

와이나는=α나는+엑스나는'β+ϵ나는

여기서 는 귀하의 결과이고, T i 는 관심있는 치료 효과이며, X i 는 잠재적 인 통제의 벡터입니다. 대상 매개 변수는 α 입니다. 결과의 변화의 대부분이 치료와 드문 컨트롤 세트로 설명되어 있다고 가정하면 Belloni et al. (2014)은 정확한 점 추정치 및 유효한 신뢰 구간을 제공하는 이중 견고성 선택 방법을 개발합니다. 이 희소성 가정은 중요합니다.와이나는나는엑스나는α

경우 의 몇 가지 중요한 예측 인자가 포함 Y 내가 하지만 당신은 그들이 (하나 하나의 변수, 자신의 고차 다항식, 또는 다른 변수와의 상호 작용)되는 모르겠어요, 당신은 세 단계로 선택 절차를 수행 할 수 있습니다 :엑스나는와이나는

  1. 회귀 X 내가 LASSO를 사용하여, 자신의 사각형, 상호 작용, 그리고 선택 중요한 예측 인자와이나는엑스나는
  2. 회귀 X 내가 LASSO를 사용하여, 자신의 사각형, 상호 작용, 그리고 선택 중요한 예측 인자나는엑스나는
  3. 회귀 T I 및 처음 두 단계 중 하나를 선택하고 모든 변수와이나는나는

이 방법이 작동하는 이유와이 방법에서 정확한 신뢰 구간 등을 얻는 이유에 대한 증거를 제공합니다. 또한 위 회귀 분석에서 LASSO 선택 만 수행 한 다음 처리 결과와 선택한 변수에 대한 결과를 회귀하면 Björn이 이미 말한 것처럼 잘못된 점 추정치와 잘못된 신뢰 구간을 얻게됩니다.

이 작업의 목적은 두 가지입니다. 직관 또는 이론에 따라 변수 선택이 안내 된 초기 모델을 이중 견고 선택 모델과 비교하면 첫 번째 모델의 성능에 대한 아이디어를 얻을 수 있습니다. 아마도 첫 번째 모델은 중요한 제곱 또는 교호 작용 항을 잊어 버렸기 때문에 잘못 지정된 기능 형태 또는 생략 된 변수로 고통받습니다. 둘째, Belloni et al. (2014) 방법은 중복 회귀자가 절차에서 불이익을 받으므로 대상 매개 변수에 대한 추론을 향상시킬 수 있습니다.


"정확한"포인트 추정치?
Richard Hardy

3

변수 선택이 수행되지 않고 선택된 모델이 처음부터 의도 된 것처럼 변수 선택을 수행 한 다음 분석을 다시 실행하려면 일반적으로 공칭 범위 미만으로 과장된 효과 크기, 유효하지 않은 p- 값 및 신뢰 구간이 발생합니다. 아마도 표본 크기가 매우 크고 몇 가지 큰 효과와 많은 Null 효과가있는 경우 LASSO + OLS는 이것에 의해 크게 영향을받지 않을 것입니다. 그러나 합리적인 정당화를 볼 수없는 경우가 아니라면 LASSO 견적도 괜찮을 것입니다.


1
그러나 왜 변수 선택이없는 것처럼 두 번째 모델이 처음부터 시작됩니까? LASSO가 예측력이 가장 좋은 설명 변수를 선택하지 않습니까? BTW LASSO 희소 행렬 변수를 다시 glm에 넣는 것으로 생각했습니다. 이제 LASSO 자체가 회귀라는 것을 이해했습니다.
SIslam
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.