며칠 전에 비슷한 질문이 있었으며 관련 참조가있었습니다.
- Belloni, A., Chernozhukov, V. 및 Hansen, C. (2014) "고차원 제어 중 선택 후 처리 효과에 대한 추론", 경제 연구 검토, 81 (2), pp. 608-50 ( link )
적어도 저에게는 논문이 비교적 읽기 쉽지만 비교적 단순한이 증거는 상당히 정교하기 때문입니다. y i = α T i + X ' i β + ϵ i 와 같은 모형 추정에 관심이있는 경우
와이나는= α T나는+ X'나는β+ ϵ나는
여기서 는 귀하의 결과이고, T i 는 관심있는 치료 효과이며, X i 는 잠재적 인 통제의 벡터입니다. 대상 매개 변수는 α 입니다. 결과의 변화의 대부분이 치료와 드문 컨트롤 세트로 설명되어 있다고 가정하면 Belloni et al. (2014)은 정확한 점 추정치 및 유효한 신뢰 구간을 제공하는 이중 견고성 선택 방법을 개발합니다. 이 희소성 가정은 중요합니다.와이나는티나는엑스나는α
경우 의 몇 가지 중요한 예측 인자가 포함 Y 내가 하지만 당신은 그들이 (하나 하나의 변수, 자신의 고차 다항식, 또는 다른 변수와의 상호 작용)되는 모르겠어요, 당신은 세 단계로 선택 절차를 수행 할 수 있습니다 :엑스나는와이나는
- 회귀 에 X 내가 LASSO를 사용하여, 자신의 사각형, 상호 작용, 그리고 선택 중요한 예측 인자와이나는엑스나는
- 회귀 에 X 내가 LASSO를 사용하여, 자신의 사각형, 상호 작용, 그리고 선택 중요한 예측 인자티나는엑스나는
- 회귀 에 T I 및 처음 두 단계 중 하나를 선택하고 모든 변수와이나는티나는
이 방법이 작동하는 이유와이 방법에서 정확한 신뢰 구간 등을 얻는 이유에 대한 증거를 제공합니다. 또한 위 회귀 분석에서 LASSO 선택 만 수행 한 다음 처리 결과와 선택한 변수에 대한 결과를 회귀하면 Björn이 이미 말한 것처럼 잘못된 점 추정치와 잘못된 신뢰 구간을 얻게됩니다.
이 작업의 목적은 두 가지입니다. 직관 또는 이론에 따라 변수 선택이 안내 된 초기 모델을 이중 견고 선택 모델과 비교하면 첫 번째 모델의 성능에 대한 아이디어를 얻을 수 있습니다. 아마도 첫 번째 모델은 중요한 제곱 또는 교호 작용 항을 잊어 버렸기 때문에 잘못 지정된 기능 형태 또는 생략 된 변수로 고통받습니다. 둘째, Belloni et al. (2014) 방법은 중복 회귀자가 절차에서 불이익을 받으므로 대상 매개 변수에 대한 추론을 향상시킬 수 있습니다.