에서 통계 학습의 요소 , 나는 다음과 같은 문장을 발견했습니다 :
하나의 자격이 있습니다. 샘플을 제거하기 전에 감독되지 않은 초기 선별 단계를 수행 할 수 있습니다. 예를 들어 교차 검증을 시작하기 전에 50 개 샘플 모두에서 가장 큰 분산을 갖는 1000 개의 예측 변수를 선택할 수 있습니다. 이 필터링에는 클래스 레이블이 포함되지 않으므로 예측 변수에 불공정 한 이점이 없습니다.
이것이 실제로 유효합니까? 사전에 속성을 필터링하면 교육 데이터 / 새 데이터 환경을 모방하지 않습니다. 따라서 수행중인 필터링이 감독되지 않습니까? 교차 유효성 검사 프로세스 내에서 모든 사전 처리 단계 를 실제로 수행 하는 것이 더 좋지 않습니까? 그렇지 않은 경우 이는 기능 정규화 / PCA 등을 포함하여 모든 비 감독 전처리를 미리 수행 할 수 있음을 의미합니다. 그러나 전체 트레이닝 세트에서이 작업을 수행하면 실제로 트레이닝 세트에 일부 데이터가 유출됩니다. 비교적 안정적인 데이터 세트를 사용하면 이러한 차이가 매우 작을 것입니다. 그러나 이것이 존재하지 않는 것은 아닙니다. 이것에 대해 생각하는 올바른 방법은 무엇입니까?