실제로 Random Forests의 구현을 작성하고 있지만 질문은 의사 결정 트리 (RF와 무관)에만 국한된다고 생각합니다.
따라서 컨텍스트는 의사 결정 트리에서 노드를 만들고 예측 변수와 대상 변수가 모두 연속적이라는 것입니다. 노드에는 데이터를 두 세트로 분할하기위한 분할 임계 값이 있으며 각 세트의 평균 목표 값을 기반으로 각 서브 세트에 대한 새로운 예측을 작성합니다. 이것이 올바른 접근법입니까?
내가 묻는 이유는 이진 변수를 예측할 때 일반적인 (올바른?) 접근법이 각 하위 집합의 데이터 행을 평균하지 않고 데이터를 0과 1 하위 집합으로 나누는 것이라고 생각하기 때문입니다. 이후의 분할은 더 세분화 된 하위 집합으로 나뉘어 각 분할 결과에서 평균을 가져옵니다. 이후 분할 (결정 트리 아래)은 이진 변수가 아닌 연속 변수에 대해 작동합니다. 목표).
부수적 인 질문 : 두 방법 (이진 대 연속)의 차이가 중요합니까? 아니면 완전한 의사 결정 트리에 대해 동일한 결과를 제공합니까?