의사 결정 트리 학습 알고리즘이 결 측값을 처리하는 방법 (후드)

의사 결정 트리 학습 알고리즘이 결 측값을 처리하는 데 사용하는 방법은 무엇입니까?

그들은 실종이라는 값을 사용하여 단순히 슬롯을 가득 채우나요?

감사.

missing-data cart

— 사용자 1172468
소스

다양한 의사 결정 트리에서 사용되는 몇 가지 방법이 있습니다. 결 측값 (ID3 및 기타 기존 알고리즘과 같이)을 무시하거나 결 측값을 다른 범주 (공칭 피쳐의 경우)로 취급하는 것은 결 측값을 실제로 처리하는 것이 아닙니다. 그러나 이러한 접근 방식은 의사 결정 트리 개발 초기 단계에서 사용되었습니다.

결측 데이터에 대한 실제 처리 방식은 분할 평가에서 결 측값이있는 데이터 포인트를 사용하지 않습니다. 그러나 자식 노드가 만들어지고 훈련되면 해당 인스턴스가 어떻게 든 배포됩니다.

결 측값 인스턴스를 하위 노드에 분배하는 다음 방법에 대해 알고 있습니다.

모두 이미 인스턴스 수가 가장 많은 노드로 이동합니다 (CART, 기본 규칙이 아님).
각 하위 노드 (C45 및 기타 노드)의 인스턴스 수에 비례하여 모든 하위에 배포하지만 가중치는 줄어 듭니다.
하나의 하위 노드에만 무작위로 배포하고 결국 범주 적 분포에 따라 (더 빠른 실행 시간을 위해 C45 및 CART의 다양한 구현에서 볼 수 있음)
서로 게이트를 빌드, 정렬 및 사용하여 인스턴스를 하위 노드에 배포합니다. 여기서 서로 게이트는 테스트 기능이 데이터 인스턴스를 왼쪽 또는 오른쪽 하위 노드로 보내는 방법과 가장 유사한 입력 기능입니다 (실패한 경우 대다수 규칙이 사용됨)

— 라파 이오
소스