실험실 값을 포함한 고차원 임상 데이터를 사용하여 예측 모델을 개발하려고합니다. 5k 샘플과 200 개의 변수로 데이터 공간이 희소합니다. 아이디어는 피처 선택 방법 (IG, RF 등)을 사용하여 변수의 순위를 매기고 예측 모델을 개발하기 위해 최상위 피처를 사용하는 것입니다.
Naïve Bayes 접근 방식으로 기능 선택이 잘 진행되는 동안 가변 공간에서 데이터 누락 (NA)으로 인해 예측 모델을 구현하는 데 문제가 있습니다. 누락 된 데이터가있는 샘플을 신중하게 처리 할 수있는 기계 학습 알고리즘이 있습니까?