단계적 회귀의 장점은 무엇입니까?


11

나는 문제에 대한 접근 방식의 다양성을 위해 단계적 회귀를 실험하고 있습니다. 그래서 두 가지 질문이 있습니다.

  1. 단계적 회귀의 장점은 무엇입니까? 구체적인 강점은 무엇입니까?

  2. 단계적 회귀를 사용하여 피처를 선택한 다음 선택한 모든 피처를 함께 가져 오는 규칙적인 회귀를 적용하는 하이브리드 접근 방식에 대해 어떻게 생각하십니까?

답변:


15

단계적 회귀의 주요 이점은 계산 효율성이 있다는 것입니다. 그러나 성능은 대체 방법보다 일반적으로 좋지 않습니다. 문제는 너무 탐욕 스럽다는 것입니다. 다음 회귀 분석기를 엄격하게 선택하고 가중치를 '고정'함으로써 각 단계에서 국소 적으로 최적이지만 일반적으로 차선책을 선택합니다. 그리고 과거 선택을 수정하기 위해 되돌아 갈 수 없습니다.

내가 아는 한, 단계적 회귀는 일반적으로 l1 더 나은 솔루션을 생성하는 경향이있는 정규화 된 회귀 (LASSO)

Tibshirani (1996) . 올가미를 통한 회귀 수축 및 선택

LASSO는 l1가중치의 표준은 솔루션의 희소성을 유발합니다 (많은 가중치는 0으로 강제됩니다). 변수 선택을 수행합니다 ( '관련'변수는 0이 아닌 가중치를 가질 수 있습니다). 희소도는 벌칙 항에 의해 제어되며 일부 절차를 사용하여 선택해야합니다 (교차 유효성 검사는 일반적으로 선택됨). LASSO는 단계적 회귀보다 계산에 집중적이지만 효율적인 알고리즘이 많이 있습니다. 일부 예는 LARS (Least Angle Regression ) 및 좌표 하강에 기반한 접근 입니다.

(2)에서 제안한 것과 비슷한 접근법을 직교 매칭 추구라고합니다. 신호 처리 문헌에서 단계적 회귀의 이름 인 매칭 추구의 일반화입니다.

Pati et al. (1993) . 직교 정합 추구 : 잔물결 분해를위한 응용 프로그램을 사용한 재귀 함수 근사

각 반복에서 다음 최고 회귀가 활성 세트에 추가됩니다. 그런 다음 활성 세트의 모든 회귀 변수에 대한 가중치가 재 계산됩니다. 가중치 재조정 단계로 인해이 접근 방식은 규칙적인 일치 추구 / 단계별 회귀보다 욕심이 적고 성능이 우수합니다. 그러나 여전히 탐욕스러운 검색 휴리스틱을 사용합니다.

이러한 모든 접근 방식 (단계적 회귀, LASSO 및 직교 매칭 추구)은 다음 문제의 근사치로 생각할 수 있습니다.

minwyXw22s.t. w0c

회귀 컨텍스트에서 열은 독립 변수에, 는 종속 변수에 해당합니다. 신호 처리에서 열은 기본 함수에 해당하고 는 근사 할 신호입니다. 목표는 의 최상의 (최소 제곱) 근사값을 제공 하는 희소 가중치 집합 을 찾는 것입니다 . 규범은 단순히 0이 아닌 항목의 수 계산 . 불행하게도,이 문제는 NP-hard이므로, 근사화 알고리즘을 실제로 사용해야합니다. 단계적 회귀 및 직교 매칭 추구는 탐욕스러운 검색 전략을 사용하여 문제를 해결하려고 시도합니다. LASSO는 완화를 사용하여 문제를 재구성합니다.XyXywyl0wl0 규범을 규범으로 여기서, 최적화 문제는 볼록 해져서 다루기 쉬워진다. 문제가 더 이상 동일하지 않지만 솔루션은 비슷합니다. 올바르게 기억한다면 LASSO와 직교 매칭 추구는 특정 조건에서 정확한 솔루션을 회복하는 것으로 입증되었습니다.l1


8

단계적 선택은 일반적으로 좋은 생각이 아닙니다. 이유를 이해하려면 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다 . 자동 모델 선택 알고리즘 .

이점이있는 한, 가능한 모든 기능 조합을 검색 할 때 컴퓨터가 처리하기에 너무 계산 집약적이어서 단계적 선택은 시간을 절약하고 다루기 쉬웠습니다. 그러나 위의 링크 된 답변에서 논의 된 문제는 '최상의 하위 집합'회귀에 많이 적용되므로 단계별로 좋은 솔루션을 만들지 않고 나쁜 솔루션을 더 빨리 생성합니다.

선택한 기능이있는 두 번째 모델 이 새로운 데이터 세트 에 적합하다면 하이브리드 방식에 대한 아이디어는 좋을 것 입니다.


OP가 "하이브리드 접근 방식"(하이브리드 방식 인 이유는 확실하지 않음)이라고 부르는 것과 관련하여 두 번째 새 데이터 세트에 대한 모델 계수 추정치가 양호해야한다는 의미에서 괜찮습니다 (편향되어 있고 문제가있는 경우). 새 데이터 세트가 충분히 큰 한 원래 데이터)? 물론 첫 번째 데이터 집합에서 잘못된 방식으로 선택 되었기 때문에 문제가있는 데이터 집합에서 계수를 추정하기 때문에 모델이 좋지 않을 수 있습니다.
Björn

또한 우리가 사용하는 다양한 변수의 수가 컴퓨팅 성능보다 훨씬 빠르게 증가하고 사람들이 모델에 포함 할 항목에 대한 아이디어가 점점 더 많아지기 때문에 가능한 모든 조합을 살펴 보는 것이 여전히 불가능합니다.
Stephan Kolassa 2016 년

스레드를 읽는 것이 계속 도움이되지 않습니다.
Mox

2

Stepwise Regression이 무엇인지 Google 검색을 수행했습니다. 완전히 이해했는지 잘 모르겠지만 여기에 첫 생각이 있습니다.

  • 욕심이 많기 때문에 올가미처럼 좋은 솔루션을 만들 수 없습니다. 나는 올가미를 선호
  • 간단하고 사용하기 쉽고 코딩하기 쉽습니다.
  • Stepwise regression을 사용한 후에는 이미 선택한 기능을 사용하는 훈련 된 모델로 끝났으므로 하이브리드 방식으로 언급 한 다른 회귀 단계를 사용할 필요가 없습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.