선형 회귀 분석을위한 최상의 예측 변수 하위 집합 계산


9

적합한 예측 변수를 사용하여 다변량 선형 회귀 분석에서 예측 변수를 선택 하기 위해 모든 2 ^ p 부분 집합 을 명시 적으로 테스트하지 않고 예측 변수의 '최적'부분 집합을 찾는 데 사용할 수있는 방법은 무엇 입니까? 'Applied Survival Analysis'에서 Hosmer & Lemeshow는 Kuk의 방법을 참조하지만 원본 논문을 찾을 수 없습니다. 누구 든지이 방법 또는 더 현대적인 기술을 설명 할 수 있습니까? 정규 분포 오류를 가정 할 수 있습니다.p2p


1
다음 논문을 참조하고 있습니까? Kuk, AYC (1984) 모든 부분 집합이 비례 위험 모델에서 회귀. Biometrika, 71, 587-592
chl

네 확실합니다. 어떻게 든 그 종이를 파야 할 것 같아요. 그러나 그것은 오래된 것 같습니다.
shabbychef

2
이 기사는 Tibshirani (Stat. Med. 1997 16 : 385-395), j.mp/bw0mB9 의 cox 모델에서 변수 선택을위한 올가미 방법에서 찾을 수 있습니다. HTH
chl

1
과 (밀접하게 연결이 더 최근의 penalizedR 패키지), j.mp/cooIT3 . 아마도 이것도 j.mp/bkDQUj 입니다. 건배
chl

답변:


12

나는 Kuk의 방법에 대해 들어 본 적이 없지만 요즘 가장 인기있는 주제는 L1 최소화입니다. 이론적으로 회귀 계수의 절대 값에 대한 페널티 항을 사용하는 경우 중요하지 않은 값은 0이되어야합니다.

이러한 기술에는 Lasso, LARS, Dantzig 선택기 등 재미있는 이름이 있습니다. 논문을 읽을 수 있지만 시작하기에 좋은 곳 은 통계 학습 요소 3 장입니다.


2
BTW, Penalized R 패키지 ( j.mp/bdQ0Rp )에는 Generalized Linear 및 Cox 모델에 대한 1 / l2 penalized 추정이 포함됩니다.
chl

matlab 땅에 갇혀, 그것을 직접 구현 ...
shabbychef

LARS는 훌륭합니다, BTW. 아주 멋진 것들. 어떻게 콕스 비례 위험 모델의 프레임 워크에
잼할

2
Glmnet 소프트웨어에는 lasso'd Cox PH 모델이 있습니다 : cran.r-project.org/web/packages/glmnet/index.html MATLAB 버전도 있습니다 (cox 모델이 있는지 확실하지 않음) : www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne

3

이것은 큰 주제입니다. 앞서 언급했듯이 Hastie, Tibshirani 및 Friedman은 Ch3 of Statistics Learning 요소에 대한 좋은 소개를 제공합니다.

몇 가지 요점. 1) "최고"또는 "최적"은 무엇을 의미합니까? 어떤면에서 가장 좋은 것은 다른면에서 가장 좋지 않을 수 있습니다. 두 가지 일반적인 기준은 예측 정확도 (결과 변수 예측)와 편향되지 않은 계수 추정기를 생성하는 것입니다. Lasso & Ridge Regression과 같은 일부 방법은 필연적으로 바이어스 계수 추정기를 생성합니다.

2) "최상 부분 집합"이라는 문구 자체는 두 가지 의미로 사용될 수있다. 일반적으로 일부 모델 구축 기준을 최적화하는 모든 예측 변수 중 최상의 하위 집합을 나타냅니다. 좀 더 구체적으로, 그것은 중간 정도 (~ 50) 개의 선형 예측 변수 (리프 및 바운드에 의한 회귀 분석) Technometrics, Vol.16, No.4 (Nov., 1974), pp. 499-51)

http://www.jstor.org/stable/1267601


1) 그렇습니다. 질문은 다소 모호합니다. 언급 한 바와 같이 정보 기준, 교차 검증 등을 통해 '최적'에 대한 많은 정의가 있습니다. 문제에 대해 본 휴리스틱 접근법의 대부분은 단계별 예측 변수 추가 / 제거로 진행됩니다. 단일 패스 포워드 덧셈 또는 뺄셈 등 그러나 Hosmer & Lemeshow는이 방법 (법률이없는 Lawless & Singhal의 변형)을 참조하는데,이 방법은 MLR (모듈로 다른 것)의 단일 계산으로 예측자를 '마 법적으로'선택합니다. 이 방법이 궁금합니다.
shabbychef

0

처음에 Best Subsets Approach를 스크리닝 도구로 사용한다는 사실을 알게 된 후, 단계별 선택 절차를 통해 어떤 모델이 가장 적합한 서브셋 모델이 될지 결정하는 데 도움이 될 수 있습니다 (현재 해당 모델의 수는 처리하기가 매우 작습니다). 모델 중 하나가 모델 조건을 충족하면 데이터의 추세를 요약하는 데 도움이되고 가장 중요한 것은 연구 질문에 대답 할 수있게 해준 것입니다.


1
나는 당신이 이것을 잘못 기억하고 있다고 생각합니다. 최고의 하위 집합은 단계적으로 계산하는 것보다 훨씬 계산 비용이 많이 들지만 반드시 단계적으로 필요한 것을 잡을 수 있으므로 단계별로 사용하여 나중에 최상의 하위 집합을 스크리닝하고 사용합니다. FWIW, 나는이 전략의 순진한 사용에 동의하지 않습니다 . 왜냐하면 여기에서 대답 할 이유가 있습니다 : 자동 모델 선택 알고리즘 .
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.