연속 변수를 예측할 때 의사 결정 트리 분할을 어떻게 구현해야합니까?


15

실제로 Random Forests의 구현을 작성하고 있지만 질문은 의사 결정 트리 (RF와 무관)에만 국한된다고 생각합니다.

따라서 컨텍스트는 의사 결정 트리에서 노드를 만들고 예측 변수와 대상 변수가 모두 연속적이라는 것입니다. 노드에는 데이터를 두 세트로 분할하기위한 분할 임계 값이 있으며 각 세트의 평균 목표 값을 기반으로 각 서브 세트에 대한 새로운 예측을 작성합니다. 이것이 올바른 접근법입니까?

내가 묻는 이유는 이진 변수를 예측할 때 일반적인 (올바른?) 접근법이 각 하위 집합의 데이터 행을 평균하지 않고 데이터를 0과 1 하위 집합으로 나누는 것이라고 생각하기 때문입니다. 이후의 분할은 더 세분화 된 하위 집합으로 나뉘어 각 분할 결과에서 평균을 가져옵니다. 이후 분할 (결정 트리 아래)은 이진 변수가 아닌 연속 변수에 대해 작동합니다. 목표).

부수적 인 질문 : 두 방법 (이진 대 연속)의 차이가 중요합니까? 아니면 완전한 의사 결정 트리에 대해 동일한 결과를 제공합니까?


1
연속 변수를 분할하면 결과 "모델"이 데이터에 제대로 맞지 않게됩니다. 하나의 연속 X와 하나의 연속 Y가있는 경우 황토 비모수 매끄럽게 사용하는 것이 좋습니다.
Frank Harrell

내가 지금하고있는 문제에는 많은 예측 변수 (연속 및 이진 혼합)와 단일 대상 변수가 있습니다. 따라서 나는 RF가 합리적인 접근 방법이라고 생각합니다.
redcalx

2
아마도 그럴 것입니다. 그러나 임의의 포리스트는 트리 (결정 트리가 아님)의 혼합 된 트리이므로 여러 개의 분할을 만들고 사실상 축소를 사용하여 지속적인 관계에 가깝습니다. 그래서 나는 당신이 원래의 질문을 이해한다고 생각하지 않습니다.
Frank Harrell

나는 연속 케이스의 당신의 설명 (일을하는 즉, 표준 방법) 올바른 말을 유혹하고있어,하지만 이진 변수 케이스의 당신의 설명을 일치하지 않습니다 전혀 내 방법 랜덤 포레스트의 이해 (또는 결정 나무)가 작동하기 때문에 우리 중 하나가 혼란 스러울 까 걱정됩니다.
joran

@ 조란. 예, 예측을 0 또는 1로 설정하면 오류를 낮출 수있는 예측 (예 : 평균 제곱 예측 오류)을 미묘하게 조정할 수 없습니다 (0과 1 사이). 따라서 나는 그 접근 방식이 열등하다고 생각합니다. 나는 그것을 시도했고 의사 결정 트리를 구축하려는 대부분의 시도는 오류를 개선하는 단일 분할조차 찾지 못했습니다.
redcalx

답변:


10

나무의 잠재적 인 문제는 꼬리에 잘 맞지 않는 경향이 있다는 것입니다. 훈련 범위의 낮은 범위를 캡처하는 터미널 노드를 생각해보십시오. 훈련 세트 포인트의 평균을 사용하여 예측하며, 이는 평균이므로 항상 결과를 예측하지 못합니다.

모델 트리를 사용해보십시오 [1]. 이것들은 터미널 노드의 선형 모델에 적합하며 회귀 트리보다 더 나은 작업을 수행합니다. 더 나은 방법은 Cubist라는보다 진화 된 버전을 사용하는 것입니다 (아래의 [1]과 [2]).

이 모델은 또한 연속 및 불연속 예측 변수를 다르게 처리합니다. 범주 형 변수에 대해 다 방향 분할을 수행 할 수 있습니다. 분할 기준은 CART 트리와 매우 유사합니다.

모델 트리는 RWeka 패키지 ( 'M5P'라고 함)의 R에서 찾을 수 있으며 Cubist는 Cubist 패키지에 있습니다. 물론 Weka도 사용할 수 있으며 Cubist에는 RuleQuest 웹 사이트에서 사용할 수있는 C 버전이 있습니다.

Quinlan, J. (1992). 지속적인 수업을 통한 학습. 인공 지능에 관한 제 5 차 호주 합동 회의의 절차, 343–348.

[2] Quinlan, J. (1993). 인스턴스 기반 및 모델 기반 학습을 결합합니다. 기계 학습에 관한 제 10 차 국제 회의의 절차, 236–243.


1
꼬리에 잘 맞지 않는 나무를 최소화하기 위해 더 깊은 나무를 가질 수 없었습니까?
Jase
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.