이것은 큰 주제입니다. 앞서 언급했듯이 Hastie, Tibshirani 및 Friedman은 Ch3 of Statistics Learning 요소에 대한 좋은 소개를 제공합니다.
몇 가지 요점. 1) "최고"또는 "최적"은 무엇을 의미합니까? 어떤면에서 가장 좋은 것은 다른면에서 가장 좋지 않을 수 있습니다. 두 가지 일반적인 기준은 예측 정확도 (결과 변수 예측)와 편향되지 않은 계수 추정기를 생성하는 것입니다. Lasso & Ridge Regression과 같은 일부 방법은 필연적으로 바이어스 계수 추정기를 생성합니다.
2) "최상 부분 집합"이라는 문구 자체는 두 가지 의미로 사용될 수있다. 일반적으로 일부 모델 구축 기준을 최적화하는 모든 예측 변수 중 최상의 하위 집합을 나타냅니다. 좀 더 구체적으로, 그것은 중간 정도 (~ 50) 개의 선형 예측 변수 (리프 및 바운드에 의한 회귀 분석) Technometrics, Vol.16, No.4 (Nov., 1974), pp. 499-51)
http://www.jstor.org/stable/1267601