교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까? 나는 Guyon (2003) 과 Singhi and Liu (2006)와 같은 몇 가지 토론과 논문을 겪었 지만 여전히 정답에 대해서는 확실하지 않습니다.
내 실험 설정은 다음과 같습니다.
- 데이터 세트 : 50 건의 건강 관리 및 50 건의 질병 환자 (질병 예측과 관련이있는 CA 200 기능).
- 작업은 사용 가능한 기능을 기반으로 질병을 진단하는 것입니다.
내가하는 일은
- 전체 데이터 세트를 가져 와서 기능 선택 (FS)을 수행하십시오. 추가 처리를 위해 선택한 기능 만 유지
- 열차 데이터와 선택한 기능을 사용하여 열차 분류기를 테스트하고 훈련시키기 위해 분할합니다. 그런 다음 분류기를 적용하여 데이터를 테스트하십시오 (다시 선택된 기능 만 사용). Leave-one-Out 유효성 검사가 사용됩니다.
- 분류 정확도 확보
- 평균화 : 1) -3) N 번 반복하십시오. (100).
전체 데이터 세트에서 FS를 수행하면 약간의 편견이 생길 수 있다는 데 동의하지만 내 의견은 평균화하는 동안 "평균화"된다는 것입니다 (4 단계). 그 맞습니까? (정확도 편차는 )
1 Guyon, I. (2003) "변수 및 기능 선택 소개", The Journal of Machine Learning Research, Vol. 3, pp. 1157-1182
2 Singhi, SK 및 Liu, H. (2006) "분류 학습을위한 기능 하위 집합 선택 바이어스", ICML '06 진행 중