답변:
단계적 회귀의 주요 이점은 계산 효율성이 있다는 것입니다. 그러나 성능은 대체 방법보다 일반적으로 좋지 않습니다. 문제는 너무 탐욕 스럽다는 것입니다. 다음 회귀 분석기를 엄격하게 선택하고 가중치를 '고정'함으로써 각 단계에서 국소 적으로 최적이지만 일반적으로 차선책을 선택합니다. 그리고 과거 선택을 수정하기 위해 되돌아 갈 수 없습니다.
내가 아는 한, 단계적 회귀는 일반적으로 더 나은 솔루션을 생성하는 경향이있는 정규화 된 회귀 (LASSO)
Tibshirani (1996) . 올가미를 통한 회귀 수축 및 선택
LASSO는 가중치의 표준은 솔루션의 희소성을 유발합니다 (많은 가중치는 0으로 강제됩니다). 변수 선택을 수행합니다 ( '관련'변수는 0이 아닌 가중치를 가질 수 있습니다). 희소도는 벌칙 항에 의해 제어되며 일부 절차를 사용하여 선택해야합니다 (교차 유효성 검사는 일반적으로 선택됨). LASSO는 단계적 회귀보다 계산에 집중적이지만 효율적인 알고리즘이 많이 있습니다. 일부 예는 LARS (Least Angle Regression ) 및 좌표 하강에 기반한 접근 입니다.
(2)에서 제안한 것과 비슷한 접근법을 직교 매칭 추구라고합니다. 신호 처리 문헌에서 단계적 회귀의 이름 인 매칭 추구의 일반화입니다.
Pati et al. (1993) . 직교 정합 추구 : 잔물결 분해를위한 응용 프로그램을 사용한 재귀 함수 근사
각 반복에서 다음 최고 회귀가 활성 세트에 추가됩니다. 그런 다음 활성 세트의 모든 회귀 변수에 대한 가중치가 재 계산됩니다. 가중치 재조정 단계로 인해이 접근 방식은 규칙적인 일치 추구 / 단계별 회귀보다 욕심이 적고 성능이 우수합니다. 그러나 여전히 탐욕스러운 검색 휴리스틱을 사용합니다.
이러한 모든 접근 방식 (단계적 회귀, LASSO 및 직교 매칭 추구)은 다음 문제의 근사치로 생각할 수 있습니다.
회귀 컨텍스트에서 열은 독립 변수에, 는 종속 변수에 해당합니다. 신호 처리에서 열은 기본 함수에 해당하고 는 근사 할 신호입니다. 목표는 의 최상의 (최소 제곱) 근사값을 제공 하는 희소 가중치 집합 을 찾는 것입니다 . 규범은 단순히 0이 아닌 항목의 수 계산 . 불행하게도,이 문제는 NP-hard이므로, 근사화 알고리즘을 실제로 사용해야합니다. 단계적 회귀 및 직교 매칭 추구는 탐욕스러운 검색 전략을 사용하여 문제를 해결하려고 시도합니다. LASSO는 완화를 사용하여 문제를 재구성합니다. 규범을 규범으로 여기서, 최적화 문제는 볼록 해져서 다루기 쉬워진다. 문제가 더 이상 동일하지 않지만 솔루션은 비슷합니다. 올바르게 기억한다면 LASSO와 직교 매칭 추구는 특정 조건에서 정확한 솔루션을 회복하는 것으로 입증되었습니다.
단계적 선택은 일반적으로 좋은 생각이 아닙니다. 이유를 이해하려면 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다 . 자동 모델 선택 알고리즘 .
이점이있는 한, 가능한 모든 기능 조합을 검색 할 때 컴퓨터가 처리하기에 너무 계산 집약적이어서 단계적 선택은 시간을 절약하고 다루기 쉬웠습니다. 그러나 위의 링크 된 답변에서 논의 된 문제는 '최상의 하위 집합'회귀에 많이 적용되므로 단계별로 좋은 솔루션을 만들지 않고 나쁜 솔루션을 더 빨리 생성합니다.
선택한 기능이있는 두 번째 모델 이 새로운 데이터 세트 에 적합하다면 하이브리드 방식에 대한 아이디어는 좋을 것 입니다.