원칙적으로:
전체 데이터 세트에 대해 훈련 된 단일 모델을 사용하여 예측을 수행하십시오 (따라서 하나의 기능 세트 만 있음). 교차 유효성 검사는 전체 데이터 집합에 대해 훈련 된 단일 모델의 예측 성능을 추정하는 데만 사용됩니다. 교차 검증을 사용하는 것은 매우 중요합니다. 각 폴드마다 기본 모델에 맞는 전체 절차를 반복해야합니다.
이 문제가 발생하는 이유를 확인하려면 사례와 기능이 모두 무작위 인 경우에만 1000 개의 이진 기능이 100 개인 이진 분류 문제를 고려하십시오. 따라서 기능과 사례간에 통계적 관계가 없습니다. 전체 데이터 세트에서 기본 모델을 학습하는 경우 사례보다 더 많은 기능이 있기 때문에 항상 트레이닝 세트에서 오류가 전혀 없습니다. "정보"기능의 하위 집합을 찾을 수도 있습니다 (우연히 상관되어 있음). 그런 다음 해당 기능 만 사용하여 교차 유효성 검사를 수행하면 임의 추측보다 나은 성능 추정치를 얻게됩니다. 그 이유는 교차 검증 절차의 각 접힘마다, 예측에 좋았 기 때문에 피처가 선택되었으므로 테스트에 사용 된 보류 사례에 대한 정보가 있기 때문입니다. 포함 된 것을 포함하여. 물론 실제 오류율은 0.5입니다.
적절한 절차를 채택하고 각 폴더에서 기능 선택을 수행하는 경우 해당 폴더에서 사용되는 기능을 선택할 때 보류 된 사례에 대한 정보가 더 이상 없습니다. 적절한 절차를 사용하면이 경우 약 0.5의 오류율을 얻게됩니다 (데이터 세트의 실현에 따라 약간 씩 다를 수 있음).
읽을만한 좋은 논문은 다음과 같습니다.
Christophe Ambroise, Geoffrey J. McLachlan, "마이크로 어레이 유전자 발현 데이터에 기초한 유전자 추출에서의 선택 편향", PNAS http://www.pnas.org/content/99/10/6562.abstract
OP와 관련성이 높고
Gavin C. Cawley, Nicola LC Talbot, "성능 평가에서 모델 선택 및 후속 선택 바이어스에 대한 과적 합", JMLR 11 (Jul) : 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
이는 모델 선택에서 동일한 일이 쉽게 발생할 수 있음을 보여줍니다 (예 : SVM의 하이퍼 파라미터 조정, CV 절차의 각 반복에서 반복되어야 함).
실제로:
Bagging을 사용하고 성능 예측을 위해 bag-of-bag 오류를 사용하는 것이 좋습니다. 많은 기능을 사용하여위원회 모델을 얻을 수 있지만 실제로는 좋은 것입니다. 단일 모델 만 사용하는 경우 기능 선택 기준을 과도하게 맞추고 더 많은 수의 기능을 사용하는 모델보다 예측이 좋지 않은 모델이 생길 수 있습니다.
Alan Millers는 회귀 분석에서 부분 집합 선택에 관한 책 (통계 및 적용 확률, 제 95 권에 대한 챕터 및 홀 논문)이 예측 성능이 가장 중요한 경우에는 기능 선택을 수행하지 않는다는 충고 (221 페이지)를 제공합니다. 대신 능선 회귀를 사용하십시오. 그리고 그것은 부분 집합 선택에 관한 책에 있습니다 !!! ;영형)