올가미와 탄성 망과 같은 이러한 방법은 기능 선택과 예측의 문제로 인해 탄생했습니다. 이 두 렌즈를 통해 설명을 찾을 수 있다고 생각합니다.
Matthew Gunn은 그의 대답에서이 두 가지 목표가 뚜렷하고 종종 다른 사람들에 의해 채택된다고 잘 설명합니다. 그러나 다행히도 우리가 관심있는 방법은 두 분야에서 모두 잘 수행 될 수 있습니다.
기능 선택
먼저 기능 선택에 대해 이야기하겠습니다. 우리는 먼저 올가미의 관점에서 탄성 그물에 동기를 부여해야합니다. 즉, Hastie와 Zou의 말을 인용하자면 , "쌍별 상관 관계가 매우 높은 변수 그룹이 있다면, 올가미는 그룹에서 하나의 변수 만 선택하는 경향이 있으며 어떤 변수가 선택되는지 상관하지 않습니다." 예를 들어, 올가미를 사용하여 진정한 지원의 요소를 찾지 못할 가능성이 높기 때문에 문제가됩니다. (이 논문은 이것이 아직 읽지 않은 LARS 논문에서 입증되었다고 언급합니다.) 상관 관계가있을 때 지원 복구의 어려움은 Wainwright 도 지적합니다 .0.5진정한지지와 보완 사이에 높은 상관 관계가있는 경우
이제 탄성 그물의 l2 페널티는 손실과 l1 페널티만으로 계수를 구별 할 수없는 것으로 간주되는 피처가 동일한 추정 계수를 갖도록 권장합니다. 우리는 는. 이로 인해 탄력적 그물은 우리가 실제로 우연히 지원하는 계수 추정치를 '실수로'소멸시킬 가능성을 줄입니다. 즉, 실제 지원이 예상 지원 내에 포함될 가능성이 높습니다. 잘 됐어요! 그것은 더 많은 거짓 발견이 있다는 것을 의미하지만, 대부분의 사람들이 기꺼이 지불하는 가격입니다.| | = | b |( a , b ) = 인수분ㅏ', b': c = | ㅏ'| + | 비'|(')2+ ( b')2| | = | b |
또한 상관 관계가 높은 피처는 매우 유사한 계수 추정치를 갖는 경향이 있기 때문에 추정 된 지원 내에서 응답에 영향을주는 피처 그룹을 감지 할 수 있습니다.
예측
이제 예측으로 넘어갑니다. Matthew Gunn이 지적한 것처럼 교차 유효성 검사를 통해 튜닝 매개 변수를 선택하면 예측 오류가 가장 적은 모델을 선택하는 것이 목표입니다. 올가미에 의해 선택된 모델은 탄성 그물에 의해 선택 될 수 있기 때문에 ( 을 취함으로써 ), 탄성 그물이 올가미보다 더 나은 예측 모델을 찾을 수 있다는 것이 의미가있다.α = 1
Lederer, Yu 및 Gaynanova 는 기능에 대한 어떠한 가정에서도 올가미와 탄성 망이 모두 같은 양으로 l2 예측 오차를 가질 수 있음을 보여줍니다. 그들의 경계가 좁다는 것은 반드시 사실은 아니지만, 통계적 문헌에서 오라클 불평등 이 추정기의 예측 성능을 정량화하는 표준 방법 인 것처럼 보일 수 있습니다. 아마도 분포가 너무 복잡하기 때문입니다! Lederer (1) (2) 에는 상관 기능이있는 경우 올가미 예측에 대한 논문이 있다는 점도 주목할 가치가 있습니다.
요약
요약하면, 관심있는 문제는 추정 된 지원 및 예측 내에있는 진정한 지원입니다. 지원 복구를 위해 올가미가 진정한 지원과 보완 사이의 상관 관계가 낮다는 가정하에 올가미가 모델에 포함 할 올바른 기능을 선택한다는 엄격한 보증이 있습니다 (Wainwright를 통해). 그러나 상관 관계가 존재하는 경우, 실제 지원 기능을 선택하는 모든 기능 중에서 선택할 가능성을 높이기 위해 탄력적 그물로 돌아갈 수 있습니다. (여기서 튜닝 매개 변수를 신중하게 선택해야합니다.) 그리고 교차 검증을 통해 튜닝 매개 변수를 선택할 때 예측을 위해, 특히 상관 관계가있을 때 탄성 망이 올가미보다 성능이 우수해야한다는 직관적 인 의미가 있습니다. .
예측과 형식을 제쳐두고 무엇을 배웠습니까? 우리는 진정한지지에 대해 배웠습니다.
신뢰 구간
올가미에 대한 유효한 추론과 관련하여 지난 2 년 동안 많은 변화가 있었음을 지적 할 가치가 있습니다. 특히 Lee, Sun, Sun 및 Taylor의 연구는 선택된 주어진 모델에 대한 올가미의 계수에 대한 정확한 추론을 제공합니다. (실제 계수에 대한 올가미 추론 결과는 OP의 포스트 시점에 있었고, 관련 논문에 잘 요약되어 있습니다.)