나는 R에 이항 가족 glm을 피팅하고 있으며 설명 변수의 전체 그룹을 가지고 있으며 가장 좋은 것을 찾아야합니다 (측정 값이 R의 제곱이 좋습니다). 설명 변수의 임의의 다른 조합을 반복하는 스크립트를 작성하고 최상의 성능을 기록하는 기록이 부족하여 실제로 무엇을 해야할지 모르겠습니다. 그리고 leaps
패키지 도약 의 기능 은 로지스틱 회귀를 수행하지 않는 것 같습니다.
어떤 도움이나 제안이라도 대단히 감사하겠습니다.
나는 R에 이항 가족 glm을 피팅하고 있으며 설명 변수의 전체 그룹을 가지고 있으며 가장 좋은 것을 찾아야합니다 (측정 값이 R의 제곱이 좋습니다). 설명 변수의 임의의 다른 조합을 반복하는 스크립트를 작성하고 최상의 성능을 기록하는 기록이 부족하여 실제로 무엇을 해야할지 모르겠습니다. 그리고 leaps
패키지 도약 의 기능 은 로지스틱 회귀를 수행하지 않는 것 같습니다.
어떤 도움이나 제안이라도 대단히 감사하겠습니다.
답변:
단계적 방법과 "모든 부분 집합"방법은 일반적으로 나쁩니다. Stepwise 중지 방법 : Stepwise 방법이 나쁜 이유 및 David Cassell과 본인이 직접 사용해야하는 내용 (SAS를 사용했지만 교훈이 적용됨) 또는 Frank Harrell Regression Modeling Strategies를 참조하십시오. 자동 방법이 필요한 경우 LASSO 또는 LAR을 권장합니다. 로지스틱 회귀 분석을위한 LASSO 패키지가 여기에 있으며, 또 다른 흥미로운 기사는 로지스틱을위한 반복 된 LASSO에 있습니다.
로지스틱 회귀는 최대 우도 방법으로 추정되므로 leaps
여기서 직접 사용되지는 않습니다. 의 확장 leaps
으로 glm()
기능이있다 bestglm의 (일반적으로 권고는 다음과 같이이 네트를 참조) 패키지로 제공된다.
David W. Hosmer, Borko Jovanovic 및 Stanley Lemeshow Best Subsets Logistic Regression // Biometrics Vol. 의 기사에 관심이있을 수도 있습니다 . 45, No. 4 (1989 년 12 월), pp. 1265-1270 (일반적으로 대학 네트워크를 통해 액세스 가능).
R2R2 is not an appropriate goodness-of-fit measure for logistic regression take an information criterion AICAIC or BICBIC
bestglm
, 그것을 사용하여 leaps
계산 백엔드에서! 따라서 데이터 세트에 NA가 있으면 실패하고 다음과 같은 메시지가 나타납니다. Error in leaps.setup(x, y, wt = weights, nbest = nbest, nvmax = nvmax, : NA/NaN/Inf in foreign function call (arg 3)
그러나 흥미로운 것은 내 데이터 세트에는 NA가 없지만이 함수가 불평하지만 정확히 위의 메시지를 제공합니다!
한 가지 아이디어는 임의의 포리스트를 사용한 다음 출력되는 변수 중요도 측정을 사용하여 최상의 8 개의 변수를 선택하는 것입니다. 또 다른 아이디어는 "boruta"패키지를 사용하여이 과정을 몇 백 번 반복하여 모델에 가장 중요한 8 개의 변수를 찾는 것입니다.