LASSO / LARS 및 일반 대 특정 (GETS) 방법


15

왜 LASSO 및 LARS 모델 선택 방법이 기본적으로 단계별 순방향 선택의 변형이지만 경로 의존성을 겪을지라도 왜 그렇게 인기가 있는지 궁금합니다.

마찬가지로, 단계 선택 회귀 문제를 겪지 않기 때문에 LARS / LASSO보다 더 나은 모델 선택을위한 GETS (General to Specific) 방법이 왜 대부분 무시 되는가? (GETS에 대한 기본 참조 : http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf- 최신 알고리즘은 경로 의존성을 피하는 광범위한 모델 및 트리 검색으로 시작하며 종종 LASSO / LARS보다 낫습니다).

LARS / LASSO는 GETS (General to Specific)보다 노출과 인용이 훨씬 더 많은 것 같습니다.

논란의 여지가없는 토론을 시작하려고하지 않고 왜 문헌이 GETS보다는 LASSO / LARS에 초점을 맞추고 있는가에 대한 합리적 설명을 찾고 있으며 실제로 LASSO / LARS의 단점을 지적하는 사람은 거의 없습니다.


여기서 경로 의존적 이란 무엇입니까 ? 또한 GETS에 대해 더 권위있는 참고 자료가 있습니까? 나는 이것에 익숙하지 않다.
추기경

다음은 올가미 ( degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/…)를 언급하는보다 "권한있는"참조입니다 .
tortilla

또한 의미있는 것을 추가하려고했습니다. 따라서 중요한 회귀자를 하나씩 추가하지만 회귀 자 간의 상관 관계에 따라 중요하지 않은 경우이 접근법을 사용하면 하나를 삭제할 수 없습니다. 따라서 일단 추가되면이 회귀자가 설정되어 삭제 될 수 없다는 경로 의존성이 있습니다. 그렇지 않습니까?
tortilla

1
계수 경로가 길을 따라 0을 넘어 가면 변수가 올가미에 의해 중간에 떨어질 수 있습니다. Efron et al. LARS의 원본 기사? 멋진 기하학적 풍미로 상당히 자세하게 설명합니다.
추기경

2
올가미는 모델 선택 문제를 가설 검정 중 하나에서 모수 추정 중 하나로 효과적으로 재전송하기 때문에 인기가 있다고 생각합니다.
probabilityislogic

답변:


2

면책 조항 : 나는 David F. Hendry의 모델 선택 작업에 ​​대해 원격으로 만 알고 있습니다. 그러나 존경받는 동료들로부터 Hendry가 계량 경제학 내에서 모델 선택 문제에 대해 매우 흥미로운 진전을 보인 것을 알고 있습니다. 통계 문헌이 모델 선택에 대한 그의 작업에 충분히주의를 기울이지 않는지 판단하려면 내 부분에 더 많은 작업이 필요합니다.

그러나 한 방법이나 아이디어가 다른 방법보다 훨씬 많은 활동을 생성하는 이유를 이해하려고 시도하는 것은 흥미 롭습니다. 과학에도 패션의 측면이 있다는 것은 의심의 여지가 없습니다. 내가 알다시피, 올가미 (및 친구들)는 매우 쉽게 표현되는 최적화 문제의 해결책이라는 주요 이점이 있습니다. 이는 솔루션에 대한 상세한 이론적 이해와 개발 된 효율적인 알고리즘의 핵심입니다. 최근의 저서 인 Bühlmann과 Van De Geer의 High-Dimensional Data대한 통계 는 올가미에 대해 이미 알려진 양을 보여줍니다.

끝없는 시뮬레이션 연구를 수행 할 수 있으며 물론 특정 응용 분야에 가장 적합하고 적합한 방법을 적용 할 수 있지만 통계 문헌의 일부에는 상당한 이론적 결과도 얻어야합니다. 올가미가 많은 활동을 생성했다는 것은 실제로 접근 할 수있는 이론적 인 질문이 있으며 흥미로운 해결책이 있다는 것을 반영합니다.

또 다른 요점은 많은 경우에 올가미 또는 변형 잘 수행 된다는 것입니다. 나는 올가미가 OP가 제안한 다른 방법으로 너무 쉽게 수행된다는 것이 옳다는 것을 확신하지 않습니다. 어쩌면 (인공) 모델 선택의 관점에서는 예측 성능의 관점에서는 그렇지 않을 수 있습니다. 언급 된 참조 중 어느 것도 Gets와 lasso를 실제로 비교하는 것으로 보이지 않습니다.


2

왜 LASSO 및 LARS 모델 선택 방법이 기본적으로 단계적 순방향 선택의 변형 일지라도 인기가 있습니까?

LASSO와 (GETS) 부분 집합 선택의 차이점이 있습니다. LASSO는 (GETS) 부분 집합 선택이 아닌 데이터 종속 방식으로 계수를 0으로 줄입니다. 이는 때때로 실패 할 경우에도 (GETS) 서브 세트 선택의 LASSO에 비해 이점이있는 것 같습니다 (매개 변수 조정이 필요합니다 (일반적으로 교차 검증을 통해 수행되며 때로는 조정이 잘못 될 수 있음)).

(GETS) 방법 <...>이 LARS / LASSO보다 낫습니다.

GETS의 성능은 공정한 (?) 연구자들에 의해 수행 될 때 LASSO와 비슷한 품질 인 것 같습니다 (새로운 버전의 GETS가 제안 된 논문에서 반드시 그런 것은 아니지만-그것이 기대할 것입니다). 이 스레드의 일부 참조를 참조하십시오 .

아마도 Hendry & Co 경은 응용 분야의 특성 (주로 거시 경제적 시계열 모델링)으로 인해 GETS를 사용하여 좋은 결과를 얻고 있습니까? 그러나 왜 그렇게 될 수 있습니까? 이것은 별도의 질문 입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.