단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까?


76

약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다.

나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다.

이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?


4
다른 사람들은 통계 절차가 도움이 될 수 있다고 언급하지만 먼저 변수 간의 관계의 강도와 모양에 대한 이론이 있는지 묻습니다. 샘플이 얼마나 큽니까? 복잡한 모델을 피해야 할 이유가 있습니까?
Michael Bishop

2
사전 테스트 편견 문제와 미스 사양 문제를 해결하기위한 대안으로 모델 평균을 고려한 사람이 있습니까? 대략 모든 변수는 잠재적 인 예측 변수이므로 유용 할 확률을 추정 할 수 있습니다. 따라서 결합 추정기는 예측 성능을 향상시킬뿐만 아니라 "범위"아래 변수 매개 변수에 대한 우수한 특성 추정값을 생성합니다.
Dmitrij Celov

1
수축. 아무도 더 이상 단계적으로 사용하지 않습니다
Aksakal

답변:


56

단계적 회귀에 대한 몇 가지 대안이 있습니다 . 내가 본 가장 많이 사용되는 것은 다음과 같습니다.

  • 모형에 포함 할 변수를 결정하는 전문가 의견 .
  • 부분 최소 제곱 법 회귀 . 본질적으로 잠재 변수를 가져 와서 회귀를 수행합니다. PCA를 직접 수행 한 다음 주요 변수를 사용할 수도 있습니다 .
  • 최소 절대 수축 및 선택 연산자 (LASSO).

PLS 회귀LASSO 는 모두 다음 과 같은 R 패키지로 구현됩니다.

PLS : http://cran.r-project.org/web/packages/pls/

LARS : http://cran.r-project.org/web/packages/lars/index.html

종속 변수와 독립 변수 사이의 관계 만 탐색 하려는 경우 (예 : 통계적 유의성 테스트가 필요하지 않은 경우) 임의 포리스트 또는 분류 / 회귀 트리 와 같은 기계 학습 방법 도 권장 합니다. 랜덤 포레스트 는 또한 선형 기술 (예 : Linear Regression )에 의해 드러나지 않았을 수있는 종속 변수와 독립 변수 사이의 복잡한 비선형 관계를 근사 할 수 있습니다 .

기계 학습 의 좋은 출발점 은 CRAN의 기계 학습 작업보기 일 수 있습니다.

기계 학습 작업보기 : http://cran.r-project.org/web/views/MachineLearning.html


10
glmnet 패키지는 올가미도 매우 빠르게 구현됩니다
David J. Harris

2
나는 잠재적 변수 공동체 내에서 PLSers는 그들 자신의 고립 된 부분을 형성하고 심각한 문헌을 뚫을 수 없었다고 경고한다. Browne, Peter Bentler, Albert Satorra 및 Alex Shapiro, Ken Bollen의 도구 변수 모델링 (가장 중요한 몇 가지 예). 이상하게도 PLS는 통계 분야에서 수용 가능한 방법으로 보이며, 일반적으로 잠재적 변수 모델링 커뮤니티보다 높은 수준의 엄격한 표준을 유지합니다.
StasK

6
통계 학습요소는 (OLS) 최고의 하위 집합, 산마루, 올가미, PLS, PCR과 같은 다양한 변수 선택 및 수축 방법을 비교합니다.
cbeleites

19

변수 선택 및 정규화를 위해 고려할 수있는 또 다른 옵션은 탄력적 그물 입니다. glmnet 패키지 를 통해 R로 구현 됩니다.


16

모델 평균화는 한 가지 방법입니다 (정보 이론적 접근). R 패키지 glmulti는 예측 변수의 모든 조합에 대해 선형 모델을 수행하고 이러한 결과에 대한 모델 평균을 수행 할 수 있습니다.

http://sites.google.com/site/mcgillbgsa/workshops/glmulti를 참조 하십시오

예측 변수 사이의 공선 성을 먼저 조사하는 것을 잊지 마십시오. 변동 인플레이션 계수 (R 패키지 "car"로 제공)가 여기서 유용합니다.


감사. 가능한 모든 모델에 실제로 적합합니까? 이 경우 상호 작용이없는 경우에도 약 10 억 개의 모델이 있습니다.
피터 엘리스

AFAIK는 가능하지만 모든 모델을 평가하는 데 걸리는 시간을 상당히 줄여주는 유전자 알고리즘 옵션이 있습니다. www.jstatsoft.org/v34/i12/paper 참조
OliP

3
또한 MuMIn, AICcmodavg패키지, 비록이 glmulti큰 모델 세트에 대한 영리이다.
벤 볼커

8

@johannes는 훌륭한 대답을했습니다. SAS 사용자 인 경우 LASSO는 PROC GLMSELECT를 통해 사용 가능하고 부분 최소 자승은 PROC PLS를 통해 사용 가능합니다.

David Cassell과 저는 SAS 사용자 그룹에서 LASSO (및 Least Angle Regression)에 대한 프레젠테이션을했습니다. 그것은 가능한 여기


7

흥미로운 토론. 단계적 회귀를 통계적 죄로 분류하는 것은 약간의 종교적 진술입니다. 편향되고, 최적 성 등을 보장하지는 않습니다. 그러나 우리가하는 다른 많은 것들에 대해서도 마찬가지입니다. 공변량 공간에서 상관 관계 구조의 더 근본적인 문제를 해결하고, 최적 성을 보장하고, 꽤 오랫동안 주변에 있으며, 학습 곡선이있는 CCA 언급을 보지 못했습니다. R을 포함한 다양한 플랫폼에서 구현됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.