누락 된 데이터를 처리하기위한 기계 학습 알고리즘


25

실험실 값을 포함한 고차원 임상 데이터를 사용하여 예측 모델을 개발하려고합니다. 5k 샘플과 200 개의 변수로 데이터 공간이 희소합니다. 아이디어는 피처 선택 방법 (IG, RF 등)을 사용하여 변수의 순위를 매기고 예측 모델을 개발하기 위해 최상위 피처를 사용하는 것입니다.

Naïve Bayes 접근 방식으로 기능 선택이 잘 진행되는 동안 가변 공간에서 데이터 누락 (NA)으로 인해 예측 모델을 구현하는 데 문제가 있습니다. 누락 된 데이터가있는 샘플을 신중하게 처리 할 수있는 기계 학습 알고리즘이 있습니까?


1
공감 된 답변이 존재한다는 것은이 질문이 너무 광범위하여 답변하기 어렵다는 것을 의미합니다. 나는 열린 채로 투표하고 있습니다.
gung-복직 모니카

답변:


15

사용하는 모델에 따라 다릅니다. 생성 모델을 사용하는 경우 결 측값 ()을 처리하는 원칙적인 방법이 있습니다. 예를 들어 Naive Bayes 또는 Gaussian Processes와 같은 모델에서는 결측 변수를 통합하고 나머지 변수에 가장 적합한 옵션을 선택합니다.

차별적 모델의 경우 불가능하므로 더 정교합니다. 여러 가지 접근 방식이 있습니다. Gharamani와 Jordan결 측값을 숨겨진 변수로 취급하고 EM 알고리즘의 변형을 사용하여이를 추정하는 원칙적인 접근 방식을 설명합니다. 유사한 방식으로, Smola et al. 문제를 명시 적으로 해결하는 SVM 알고리즘의 변형을 설명합니다.

결 측값을 변수의 평균값으로 대체하는 것이 좋습니다. 첫 번째 논문에서 설명한 것처럼 문제가 있습니다. 때로는 결 측값을 추정하기 위해 변수에 대해 회귀 분석을 수행하는 논문을 보았지만 귀하의 사례에 해당되는지 여부를 말할 수는 없습니다.


2
결 측값을 변수의 평균값으로 대체하는 것이 종종 권장됩니다 . 출처를 말씀해 주시겠습니까?
Sergey Bushmanov

1
@juampa 왜 차별적 모델에서 누락 된 변수를 통합 할 수 없다고 주장합니까? 우리는 항상 로지스틱 회귀 분석을 위해 이것을합니다. 실제로, 이것은 다중 대치와 동일하게 보일 수 있습니다.
AdamO

1
@SergeyBushmanov 나는 당신의 혼란에 당신과 함께 있습니다. 되어 있지 종종 어떤 경우와 다른 경우 anticonservative 검증 측정에 바이어스로 연결하기 때문에 (단일) 평균 전가를 사용하는 것이 좋습니다.
AdamO


2

누락 된 데이터를 제거하려면 가장 가까운 이웃을 사용하여 대치를 시도하십시오.

또한 Caret 패키지에는 다양한 알고리즘에 대한 인터페이스가 있으며 모두 새로운 데이터를 예측하는 데 사용할 수있는 예측 방법이 R로 제공됩니다. 동일한 패키지를 사용하여 k- 폴드 교차 검증을 사용하여 성능 메트릭을 추정 할 수도 있습니다.


2

분류 및 회귀 트리와 같은 예측 모델을 작성할 때 결 측값을 고유하고 다른 값으로 사용할 수있는 알고리즘도 있습니다. xgboost와 같은


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.