내 질문은 분류 자 / 모델 교육 / 피팅 중 불완전한 데이터 를 처리하는 기술에 관한 것입니다 .
예를 들어, 수백 개의 행이있는 데이터 세트에서 각 행에 5 개의 차원과 클래스 레이블이 마지막 항목이라고 가정하면 대부분의 데이터 포인트는 다음과 같습니다.
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
몇 가지가 다음과 같이 보일 수 있습니다.
[0.21, 0.68, α, 0.82, 0.58, 1]
이것이 바로이 질문의 초점이되는 데이터 유형의 유형입니다.
이 질문을하는 나의 초기 이유는 내 앞에서 직접 문제였다. 그러나 내 질문을 게시하기 전에 다시 표현하면 답변이 커뮤니티의 더 큰 부분에 유용 할 때 더 유용 할 것이라고 생각했습니다.
간단한 휴리스틱으로, 처리 흐름 중 분류기에 입력하기 전이나 분류기 내부에 적용되는 시점에 따라 이러한 데이터 처리 기술을 나눕니다.
후자를 위해 생각할 수있는 가장 좋은 예는 의사 결정 트리에서 사용되는 영리한 '3 방향 분기'기술입니다.
의심 할 바없이, 이전 범주는 훨씬 더 큽니다. 내가 아는 기술은 모두 아래 그룹 중 하나에 속합니다.
최근 "데이터 처리 누락"에 대한 개인 메모를 검토하는 동안 나는 상당히 인상적인 기술 목록을 가지고 있음을 알았습니다. 나는 단지 일반적인 마음의 평안을 위해이 메모를 유지하고 하급 동료가 나에게 누락 된 데이터를 처리하는 방법을 물을 때 실제로는 마지막 것을 제외하고 실제로 사용하지 않습니다.
대치 (Imputation) : 공통 분모가 있다고 생각하는 기술 집합에 대한 광범위한 루 브릭 ( 누군가 )은 누락 된 데이터가 추정 / 예측이 아닌 동일한 데이터 세트에 의해 직접 제공된다는 것입니다.
재구성 : 자동 연결 네트워크를 사용하여 누락 된 데이터 포인트를 추정합니다 (입력 및 출력 레이어의 크기가 동일한 신경망 만, 즉 출력이 입력과 동일한 차원을 가짐). 여기서의 아이디어는이 네트워크를 완전한 데이터에 대해 훈련시킨 다음 불완전한 패턴을 공급하고 출력 노드에서 결 측값을 읽는 것입니다.
부트 스트래핑 : (통계 분석의 다른 곳에서 사용한다고 생각하면 요약이 필요하지 않습니다).
거부 : 학습 세트에서 누락 / 손상 요소가있는 데이터 포인트를 조용히 제거하여 존재하지 않는 척합니다.
modern
기술을 설명하는 논문을 알려 주 시겠습니까? 감사합니다
mice
에는 jstatsoft.org/article/view/v045i03 과 같은 JSS에 대한 훌륭한 입문서가 있습니다. (R을 사용하지 않더라도 소개가 유용하다는 것을 알게 될 것입니다.) 그리고 R 패키지 Amelia
에는 패키지에 포함 된 멋진 비네팅이 있습니다. 이 두 패키지는 세부 사항이 다르지만 둘 다 다중 대치를 사용합니다.