나는 어떤 종류의 분류 자에 대한 입력을 위해 존재하지 않는 데이터를 처리하는 방법에 대한 좋은 텍스트 나 예제를 찾지 못했습니다. 누락 된 데이터에 대해 많이 읽었지만 다변량 입력과 관련하여 존재하지 않거나 존재하지 않는 데이터에 대해 수행 할 수있는 작업을 읽었습니다. 나는 이것이 매우 복잡한 질문이며 사용 된 교육 방법에 따라 다를 수 있음을 이해합니다 ...
예를 들어, 정확한 정확한 데이터를 가진 여러 주자에 대한 랩타임을 예측하려는 경우. 많은 입력 중 많은 것 중에서 가능한 변수는 다음과 같습니다.
- 입력 변수-최초 러너 (Y / N)
- 입력 변수-이전 랩타임 (0-500 초)
- 입력 변수-연령
- 입력 변수-높이. . . 더 많은 입력 변수 등
& Output Predictor-예상 랩타임 (0-500 초)
'2. 이전 랩타임'에 대한 '결측 변수'는 '1. 첫 러너는 항상 N과 같습니다. 그러나 'NON EXISTENT DATA'(처음 주자) ( '1. 첫 번째 주자'= Y)의 경우 '2에 어떤 값 / 치료를 제공해야합니까? 이전 랩타임?
예를 들어 '2를 할당합니다. 이전 랩 타임 -99 또는 0으로 인해 분포가 급격히 왜곡되어 새로운 러너가 잘 수행 한 것처럼 보일 수 있습니다.
현재 훈련 방법은 로지스틱 회귀, SVM, NN 및 의사 결정 트리를 사용하고 있습니다.