나는 최근에이 사이트 (@Aniko, @Dikran Marsupial, @Erik)와 교차 검증에서 발생하는 과잉 적합 문제에 대해 많은 것을 읽었습니다. 제안은이다 모든 감독 기능 선택 (클래스 라벨 상관을 이용)을 초래할 수 overfitting 교차 검증 (또는 부트 스트랩으로 추정 방식의 다른 모델)을 사용하여 모델의 성능 평가의 외부에서 수행.
이것은 직관적이지 않은 것 같습니다. 특징 세트를 선택한 다음 교차 검증을 사용하여 선택한 기능 만 사용하여 모델을 평가 하면 해당 기능에 대해 일반화 된 모델 성능에 대한 편견이없는 추정값을 얻습니다 (연구중인 샘플이 대표적이라고 가정합니다) 인구의)?
이 절차를 통해 최적의 기능 세트를 청구 할 수 없지만 보이지 않는 데이터에 대해 선택된 기능 세트의 성능을 유효한 것으로보고 할 수 있습니까?
전체 데이터 세트를 기반으로 기능을 선택하면 테스트와 기차 세트 간의 일부 데이터 유출이 다시 발생할 수 있음을 인정합니다. 그러나 초기 선택 후 기능 세트가 정적이고 다른 조정이 수행되지 않은 경우 교차 검증 된 성능 메트릭을보고하는 것이 확실합니까?
제 경우에는 56 가지 기능과 259 가지가 있으므로 #cases> #features입니다. 기능은 센서 데이터에서 파생됩니다.
내 질문이 파생 된 것처럼 보이지만 이것은 명확히해야 할 중요한 포인트 인 것 같습니다.
편집 : 위에서 자세히 설명한 데이터 세트 (아래 답변 덕분에)에 대한 교차 유효성 검사 내에서 기능 선택을 구현할 때이 데이터 세트에서 교차 유효성을 검사하기 전에 기능을 선택하면 상당한 의미가 있음을 확인할 수 있습니다편견. 이러한 편향 / 과적 합은 2- 클래스 제형과 비교하여 3- 클래스 제형에 대해 그렇게 할 때 가장 크게 나타났다. 피처 선택에 단계적 회귀를 사용했다는 사실이이 과적 합을 증가 시켰다고 생각합니다. 비교 목적으로, 서로 다르지만 관련된 데이터 세트에서, 교차 검증 전에 수행 된 순방향 순방향 피쳐 선택 루틴을 이전에 CV 내에서 피쳐 선택으로 얻은 결과와 비교했습니다. 두 방법 사이의 결과는 크게 다르지 않았습니다. 이는 단계적 회귀가 순차 FS보다 과적 합하기 쉽다는 것을 의미하거나이 데이터 세트의 문제 일 수 있습니다.