의사 결정 트리 학습 알고리즘이 결 측값을 처리하는 방법 (후드)


21

의사 결정 트리 학습 알고리즘이 결 측값을 처리하는 데 사용하는 방법은 무엇입니까?

그들은 실종이라는 값을 사용하여 단순히 슬롯을 가득 채우나요?

감사.

답변:


24

다양한 의사 결정 트리에서 사용되는 몇 가지 방법이 있습니다. 결 측값 (ID3 및 기타 기존 알고리즘과 같이)을 무시하거나 결 측값을 다른 범주 (공칭 피쳐의 경우)로 취급하는 것은 결 측값을 실제로 처리하는 것이 아닙니다. 그러나 이러한 접근 방식은 의사 결정 트리 개발 초기 단계에서 사용되었습니다.

결측 데이터에 대한 실제 처리 방식은 분할 평가에서 결 측값이있는 데이터 포인트를 사용하지 않습니다. 그러나 자식 노드가 만들어지고 훈련되면 해당 인스턴스가 어떻게 든 배포됩니다.

결 측값 인스턴스를 하위 노드에 분배하는 다음 방법에 대해 알고 있습니다.

  • 모두 이미 인스턴스 수가 가장 많은 노드로 이동합니다 (CART, 기본 규칙이 아님).
  • 각 하위 노드 (C45 및 기타 노드)의 인스턴스 수에 비례하여 모든 하위에 배포하지만 가중치는 줄어 듭니다.
  • 하나의 하위 노드에만 무작위로 배포하고 결국 범주 적 분포에 따라 (더 빠른 실행 시간을 위해 C45 및 CART의 다양한 구현에서 볼 수 있음)
  • 서로 게이트를 빌드, 정렬 및 사용하여 인스턴스를 하위 노드에 배포합니다. 여기서 서로 게이트는 테스트 기능이 데이터 인스턴스를 왼쪽 또는 오른쪽 하위 노드로 보내는 방법과 가장 유사한 입력 기능입니다 (실패한 경우 대다수 규칙이 사용됨)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.