약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다.
나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다.
이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?
약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다.
나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다.
이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?
답변:
단계적 회귀에 대한 몇 가지 대안이 있습니다 . 내가 본 가장 많이 사용되는 것은 다음과 같습니다.
PLS 회귀 및 LASSO 는 모두 다음 과 같은 R 패키지로 구현됩니다.
PLS : http://cran.r-project.org/web/packages/pls/ 및
LARS : http://cran.r-project.org/web/packages/lars/index.html
종속 변수와 독립 변수 사이의 관계 만 탐색 하려는 경우 (예 : 통계적 유의성 테스트가 필요하지 않은 경우) 임의 포리스트 또는 분류 / 회귀 트리 와 같은 기계 학습 방법 도 권장 합니다. 랜덤 포레스트 는 또한 선형 기술 (예 : Linear Regression )에 의해 드러나지 않았을 수있는 종속 변수와 독립 변수 사이의 복잡한 비선형 관계를 근사 할 수 있습니다 .
기계 학습 의 좋은 출발점 은 CRAN의 기계 학습 작업보기 일 수 있습니다.
기계 학습 작업보기 : http://cran.r-project.org/web/views/MachineLearning.html
모델 평균화는 한 가지 방법입니다 (정보 이론적 접근). R 패키지 glmulti는 예측 변수의 모든 조합에 대해 선형 모델을 수행하고 이러한 결과에 대한 모델 평균을 수행 할 수 있습니다.
http://sites.google.com/site/mcgillbgsa/workshops/glmulti를 참조 하십시오
예측 변수 사이의 공선 성을 먼저 조사하는 것을 잊지 마십시오. 변동 인플레이션 계수 (R 패키지 "car"로 제공)가 여기서 유용합니다.
MuMIn
, AICcmodavg
패키지, 비록이 glmulti
큰 모델 세트에 대한 영리이다.