회귀 변수 선택에 올가미를 사용할 때의 단점은 무엇입니까?


60

내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 ​​단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?


9
올가미가 공선 성 문제를 처리한다고 들었을 때 나는 그것이 사실이 아닙니다.
매크로

3
호스 슈 이전의 모델 선택은 LASSO보다 낫습니다. 적어도 희소 모델의 경우 (모델 선택이 가장 유용합니다). 이 링크 에서 이러한 요점에 대한 토론을 찾을 수 있습니다 . 이 논문의 저자 중 2 명도 발렌시아 회의에 비슷한 기사를 썼습니다. Bayesian Statistics 9 "Shrink Globally Act Locally : Sparse Bayesian regularization and prediction". 발렌시아 기사는 페널티 프레임 워크에 대해 훨씬 자세하게 설명합니다.
확률

9
예측에만 관심이있는 경우 모형 선택이 도움이되지 않으며 대개 2 차적 페널티 = L2 규범 = 능선 회귀와 달리 변수 선택이없는 경우에는 아 hurt니다. LASSO는 변수 선택을 시도하는 것에 대한 예측 차별로 가격을 지불합니다.
Frank Harrell

3
임의의 결정을 내기 위해 동전을 던지면 종종 결과에 관심이 있다는 것을 알 수 있습니다. 예측 변수 선택에 대한 결정을 내릴 수있는 방법을 사용하면 모델에 더 자연스럽게 속하는 예측 변수, 무시하고 싶지 않은 아이디어에 대한 아이디어가있는 경우가 종종 있습니다. LASSO는 그렇게 작동 할 수 있습니다.
Nick Cox

5
두 번째 @Nick : "모델 선택을 안내하는 이론이 없다"는 현실이 거의 없습니다. 상식은 이론이다.
Scortchi-Monica Monica 복원

답변:


29

단계적으로 선택할 이유가 없습니다. 그냥 잘못이야

LASSO / LAR는 최고의 자동 방법입니다. 그러나 자동 방법입니다. 그들은 분석가가 생각하지 못하게했습니다.

많은 분석에서 일부 변수는 유의성 척도의 모델에 있어야합니다. 때로는 필요한 제어 변수가 있습니다. 다른 경우에는 작은 효과를 찾는 것이 실질적으로 중요 할 수 있습니다.


43
"단계적 선택을 할 이유가 없습니다. 단지 잘못된 것입니다." -상황이없고, 통계적 실습이없는 그런 진술을 거의 절대로 쓸어 내지 않습니다. 여기에 "잘못 된 것"이 있다면 위의 굵은 글씨입니다. 분석에서 또는 모수 추정치 (예 : 예측 모델)를 강조하지 않는 경우 단계적 변수 선택이 합리적 일 수 있으며 :: gasp :: 경우에 따라 LASSO보다 성능이 우수 할 수 있습니다. (피터, 우리는 전에이 콘 보를 가졌다는 것을 알고 있습니다.이 의견은 다른 사람이 아닌이 게시물을 만날 수있는 미래의 독자를위한 것입니다).
Macro

4
-1 단계의 담요 비판으로 인해 -1. "잘못"된 것이 아니라 결정론적인 모델 검색으로 자리 잡고 있습니다. 자동 방법에 대해서는 보닛에 꿀벌이 있습니다.
확률

8
@Elvis, 나는 주제에 대한 전문가 나 단계적인 지지자가 아닙니다. 나는 무조건 성명서에만 문제가 있습니다. 그러나 호기심으로 몇 가지 간단한 시뮬레이션을 수행했으며 거의 ​​동일한 효과를 갖는 많은 공선 예측 변수가있는 경우 샘플 외부 예측 측면에서 LASSO보다 역방향 선택이 더 좋습니다. 나는 ε N ( 0 , 1 )과 함께 사용했습니다 . 예측 변수는 c o r ( X
와이나는=제이=1100엑스나는제이+ε나는
ε(0,1)각 쌍(J,K). 영형아르 자형(엑스나는제이,엑스나는케이)=1/2(제이,케이)
매크로

10
회귀 분석을 시작하기 전에 공선 성을 확실히 조사해야합니다. 공 선형 변수가 많은 경우 LASSO 또는 Stepwise를 사용해서는 안됩니다. 공선 성 문제를 해결하거나 (변수 삭제, 더 많은 데이터 가져 오기 등) 이러한 문제에 대해 설계된 방법 (예 : 능선 회귀)을 사용해야합니다.
Peter Flom

5
좋아, 당신 말이 맞지만 나는 그것이 실제로 관련이 있다고 생각하지 않습니다. NOR 올가미 (또는 변수 선택 방법)도 모든 문제를 해결하지는 않습니다. 모델링을 시작하기 전에해야 할 일이 있으며 그 중 하나는 공선 성을 검사하는 것입니다. 또한 두 방법 모두 적용되는 회귀 규칙을 위반 한 다른 데이터 세트에 대해 어떤 변수 선택 방법이 효과가 있었는지 상관하지 않습니다.
Peter Flom

22

예측 오차 만 신경 쓰고 해석 성, 우연한 유추, 모형 단순성, 계수 테스트 등을 신경 쓰지 않는다면 왜 선형 회귀 모델을 사용하고 싶습니까?

의사 결정 트리를 높이거나 벡터 회귀를 지원하고 예측 품질을 높이고 언급 된 두 경우 모두 과적 합을 피할 수 있습니다. 즉, 올가미는 최상의 예측 품질을 얻는 최선의 선택이 아닐 수 있습니다.

내 이해가 정확하다면 올가미는 예측뿐만 아니라 모델 자체에 여전히 관심이있는 상황을위한 것입니다. 즉, 선택된 변수와 계수를보고, 어떤 식 으로든 해석하십시오. 그리고이를 위해-여기 다른 질문에서 논의 된 것처럼 특정 상황에서는 올가미가 최선의 선택이 아닐 수 있습니다.


20

LASSO는 계수를 0으로 축소하는 것을 권장합니다. 즉, 해당 편차를 모델에서 삭제합니다. 반면, 능선과 같은 다른 정규화 기술은 모든 변형을 유지하는 경향이 있습니다.

따라서이 삭제가 데이터에 적합한 지 여부를 생각하는 것이 좋습니다. 예를 들어 유전자 마이크로 어레이 데이터 또는 진동 분광 데이터에 대한 임상 진단 테스트 설정을 고려하십시오.

  • 일부 유전자에는 관련 정보가 포함되어있을 것으로 예상되지만 다른 유전자는 잡음이 많습니다. 너의 어플리케이션. 이러한 변수를 삭제하는 것은 완벽하게 합리적인 아이디어입니다.

  • 대조적으로, 진동 분광 데이터 세트 (일반적으로 마이크로 어레이 데이터와 비교하여 유사한 치수를 가짐)는 관련 정보가 스펙트럼의 큰 부분 (상관)에 대해 "더러 져"있는 경향이 있습니다. 이러한 상황에서 정규화에 편차를 요청하는 것은 특히 합리적인 방법이 아닙니다. PLS와 같은 다른 정규화 기술은 이러한 유형의 데이터에 더 적합합니다.

통계 학습의 요소는 LASSO에 대해 잘 설명하고 다른 정규화 기술과 대조합니다.


14

두 예측 변수가 서로 밀접한 관련이있는 경우 LASSO는 하나를 임의로 삭제합니다. 두 예측 변수가 서로 관련이없는 집단에 대해 예측하고 싶거나 아마도 그러한 상황에서 능선 회귀를 선호하는 이유는 그리 좋지 않습니다.

또한 범주 형 예측 변수를 표준화하는 현명한 방법에 대해 예측 변수의 표준화 (계수가 "큰"또는 "작은"인 경우)를 임의적이라고 생각하고 (나와 같이) 당혹스럽게 생각할 수도 있습니다.


1
이 답변에 감사드립니다. 상관 된 예측 변수 / 범주 예측 변수와 관련된 문제를 다루는 논문이 있습니까?
Berk U.

2
탄력적 인 그물과 같은 문제를 완화하려는 다른 불이익 회귀 방법이 있다는 점도 덧붙일 가치가 있습니다.
bdeonovic

고도로 공 선형 변수로 변수 선택을 수행하는 경우, L0Learn 패키지에 구현 된 L0 Penalized Regression 및 L0ara 패키지에 구현 된 L0에 근접한 반복적 적응 형 능선이 L0L2 페널티가 가장 잘 수행되는 경향이 있습니다.
Tom Wenseleers

9

올가미는 추정 할 모수에서 선형 인 모형을 고려하도록 스스로를 제한하는 경우에만 유용합니다. 달리 말하면, 올가미는 독립 변수와 종속 변수 사이의 올바른 관계 형식을 선택했는지 여부를 평가하지 않습니다.

임의의 데이터 세트에 비선형, 대화식 또는 다항식 효과가있을 수 있다는 것은 매우 타당합니다. 그러나 이러한 대체 모델 사양은 사용자가 해당 분석을 수행하는 경우에만 평가됩니다. 올가미는 그렇게 대신 할 수 없습니다.

이것이 어떻게 잘못 될 수 있는지에 대한 간단한 예를 들어, 독립 변수의 분리 된 간격이 종속 변수의 높은 값과 낮은 값을 번갈아 예측하는 데이터 세트를 고려하십시오. 분석을 위해 존재 하는 매니페스트 변수 에는 선형 효과가 없기 때문에 (일부 매니페스트 변수의 변환이 도움이 될 수 있음) 기존 선형 모델을 사용하여 정렬하기 가 어려울 것입니다. 매니페스트 형태 왼쪽, 올가미는 것이다 잘못 이 기능이 불필요한 것을 결론 더 없기 때문에 계수를 제로 선형 관계. 반면에 데이터에 축 정렬 분할이 있기 때문에 임의 포리스트와 같은 트리 기반 모델이 적합 할 것입니다.

여기에 이미지 설명을 입력하십시오


5

올가미 및 기타 정규화 기술의 한 가지 실질적인 단점은 최적의 정규화 계수 람다를 찾는 것입니다. 이 값을 찾기 위해 교차 검증을 사용하는 것은 단계적 선택 기법만큼이나 비쌀 수 있습니다.


"비싸다"는 무슨 뜻입니까?
mark999

4
이 주장은 사실이 아닙니다. glmnet 방법 에서처럼 "warm start"그리드 검색을 채택하면 전체 그리드를 매우 빠르게 계산할 수 있습니다.
확률

1
@probabilityislogic 사실, 위의 의견을 말한 후에 따뜻한 시작에 대해서만 읽습니다. 웜 스타트가 단순한 교차 검증보다 느리고 때로는 덜 효과적임을 나타내는이 백서에 대해 어떻게 생각하십니까? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999

5
λ

5

저는 LASSO 전문가는 아니지만 시계열 전문가입니다. 시계열 데이터 또는 공간 데이터가 있다면 독립적 인 관측에 근거한 솔루션을 적절하게 피할 수 있습니다. 또한 데이터에 영향을 미치는 결정적 효과가 알려지지 않은 경우 (레벨 이동 / 시간 추세 등) LASSO는 그다지 좋은 망치가 될 수 없습니다. 시계열 데이터가있을 때 닫을 때 시간이 지남에 따라 변하는 매개 변수 또는 오류 분산에 직면 할 때 데이터를 분할해야하는 경우가 종종 있습니다.


1
LASSO는 AR (ar autoregressions), VAR (vector autoregressions) 및 VECM (vector error correction models)과 같은 회귀 기반 시계열 모델에 적용될 때 우수한 예측 성능을 제공 할 수 있습니다. 예를 들어, 올가미 벡터 자동 회귀 분석을 위해서는 학술 문헌에서 많은 예를 찾을 수 있습니다. 필자의 경험에 따르면 고정 VAR 모델에 LASSO를 사용하면 모든 하위 세트 선택 또는 릿지 정규화에 비해 우수한 예측 성능을 제공 할 수 있으며, 릿지 정규화는 통합 VAR 모델에 대한 LASSO를 능가합니다 (Scortchi의 답변에 따라 다중 공선 성으로 인해).
Richard Hardy

따라서 LASSO의 실패는 시계열 데이터에 내재 된 것이 아닙니다.
Richard Hardy

2

이것은 이미 오래된 질문이지만 그 동안 대부분의 답변은 상당히 구식이라고 생각합니다 (정답으로 확인 된 답변은 명백한 잘못된 imho입니다).

첫째, 좋은 예측 성능을 얻는다는 점에서 LASSO가 항상 단계적보다 나은 것은 사실이 아닙니다. Hastie et al (2017) 의 논문 "최고 부분 집합 선택, 전진 단계 선택 및 올가미 의 확장 된 비교"는 전진 단계적, LASSO 및 완화 된 LASSO와 같은 일부 LASSO 변형뿐만 아니라 최상의 부분 집합을 광범위하게 비교합니다. 단계적으로 LASSO보다 단계별로 더 나은 것을 보여줍니다. LASSO-이완 된 LASSO는 가장 광범위한 상황에서 가장 높은 모델 예측 정확도를 생성 한 것입니다. 어느 것이 가장 좋은지에 대한 결론은 가장 높은 것으로 생각하는 것에 달려 있습니다.

그래도 전체 희소 학습 방법이 있으며 대부분 LASSO보다 낫습니다. 예를 들어 패키지에 구현 된 Meinhausen의 편안한 LASSO , 적응 형 LASSOSCAD 및 MCP 불이익 회귀가 있으며 ncvreg, 표준 LASSO보다 편향이 적으므로 선호됩니다. 또한 최고의 예측 성능을 가진 절대 희소 솔루션에 관심이있는 경우 L0 불이익 회귀 (일명 최상의 하위 집합, 즉 LASSO에서 계수의 절대 값의 합계와 비교하여 0이 아닌 계수의 nr의 처벌을 기반으로 함) LASSO보다 낫다는 예 참조 l0ara패키지 사용 L0 범 GLMS 근사 반복 적응 릿지 절차, LASSO와는 달리 고도의 공선 변수와 매우 잘 작동하는 L0Learn패키지좌표 하강을 사용하여 L0 불완전 회귀 모델에 적합 하며, 잠재적으로 공선 성을 정규화하기 위해 L2 페널티와 결합 할 수 있습니다.

따라서 원래의 질문으로 돌아가려면 변수 선택에 LASSO를 사용하지 않는 이유는 무엇입니까? :

(1) 계수가 고도로 편향되어 완화 된 LASSO, MCP 및 SCAD 불이익 회귀에서 개선되고 L0 불이익 회귀 (완전한 oracle 속성을 갖는, 즉 인과 관계 변수 및 재 동기화를 모두 제거 할 수 있음)에서 완전히 해결되기 때문에 편향되지 않은 계수, p> n 경우에도 해당)

(2) 그것은 L0 처벌 회귀보다 더 많은 오탐 (false positive)을 생성하는 경향이 있기 때문에 (내 테스트에서 l0ara반복적 적응 능선과 그 다음에 가장 잘 수행됩니다 L0Learn)

(3) 공선 변수를 잘 처리 할 수 ​​없기 때문에 (필수적으로 공선 변수 중 하나를 무작위로 선택합니다)-반복 l0ara적응 능선 / L0L2 페널티 L0Learn가 그 처리에 훨씬 좋습니다.

물론, 일반적으로 최적의 예측 성능을 얻으려면 정규화 매개 변수를 조정하기 위해 교차 유효성 검사를 사용해야하지만 문제는 아닙니다. 또한 비모수 적 부트 스트랩을 통해 원하는 경우 매개 변수에 대해 높은 차원의 추론을 수행하고 계수에 대한 95 % 신뢰 구간을 계산할 수 있습니다 (각 부트 스트랩 된 데이터 세트에서도 교차 검증을 수행하는 경우 최적의 정규화 선택에 대한 불확실성을 고려하더라도) , 그것은 꽤 느려집니다).

계산적으로 LASSO는 단계적 접근 방식 btw보다 적합하지 않습니다. 따뜻한 시작을 사용하는 고도로 최적화 된 코드를 사용하여 LASSO 정규화를 최적화하는 경우는 아닙니다 ( fs포워드 단계별 명령 및 패키지의 lassoLASSO 명령을 사용하여 자신을 비교할 수 있음 bestsubset). 단계적 접근 방식이 여전히 대중적이라는 사실은 아마도 최종 모델을 유지하고 p 값과 관련된 값을보고 할 수 있다는 많은 사람들의 잘못된 믿음과 관련이있을 것입니다. 실제로는 올바른 것이 아닙니다. 모델 선택에 의해 도입 된 불확실성을 고려하여 너무 낙관적 인 p 값을 초래합니다.

도움이 되었기를 바랍니다?


0

가장 큰 것은 가설 테스트를 수행하기가 어렵다는 것입니다. 올가미에서 어떤 변수가 통계적으로 유의한지 쉽게 알 수 없습니다. 단계별 회귀 분석을 통해 다중 테스트 처리에주의를 기울이면 가설 검정을 어느 정도 수행 할 수 있습니다.


8
그것이 장점이 아니라 단점이라고 말하고 싶습니다. 아마도하지 말아야 할 일을 멈출 수 있습니다.
Peter Flom

@ 피터 : 왜? 얻은 P 값이 유효하도록 여러 테스트 등을 올바르게 수정한다고 가정합니다.
dsimcha

10
실제로 여러 테스트를 단계별로 올바르게 수정할 수있는 방법이 없습니다. 예를 들어 Harrell Regression 모델링 전략을 참조하십시오. 올바른 수정 방법을 알 수있는 방법이 없습니다
Peter Flom

4
가설 테스트를 수행하는 데 어려움이 LASSO의 잠재적 인 단점이라는 것은 사실입니다. 이것이 단계적 회귀에 대한 단점이라는 것은 사실이 아닙니다.
gung-Monica Monica 복원

2
LASSO에 대한 추론 (선택 후)을 수행하기위한 선택적 추론 프레임 워크 (선택적 추론 패키지에서 구현 됨)가 있습니다. ..
Tom Wenseleers
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.