두 의사 결정 트리의 합이 단일 의사 결정 트리와 동일합니까?


15

입력 를 출력 매핑하는 두 개의 회귀 트리 (트리 A 및 트리 B)가 있다고 가정 합니다. 하자 트리 A와 용 트리의 각 B. 트리 분리 기능 등 초평면으로, 이진 분할을 이용한다.YR의 Y = F ( X ) F B ( X )xRdy^Ry^=fA(x)fB(x)

이제 가중 된 트리 출력의 합을 취한다고 가정 해보십시오.

에프(엑스)= 에프(엑스)+ 에프(엑스)

함수 가 단일 (더 깊은) 회귀 트리와 동등합니까? 에프대답이 "때때로"인 경우 어떤 조건에서?

이상적으로는 비스듬한 초평면 (즉, 피처의 선형 조합에서 수행되는 분할)을 허용하고 싶습니다. 그러나 단일 기능 분할이 사용 가능한 유일한 대답이라면 괜찮을 수 있습니다.

다음은 2D 입력 공간에 정의 된 두 개의 회귀 트리입니다.

여기에 이미지 설명을 입력하십시오

그림은 각 트리가 입력 공간을 분할하는 방법과 각 영역의 출력 (회색조로 코드화 됨)을 보여줍니다. 색상 번호는 입력 공간의 영역을 나타냅니다. 3,4,5,6은 리프 노드에 해당합니다. 1은 3 & 4 등의 조합입니다.

이제 나무 A와 B의 평균을 산출한다고 가정 해보십시오.

여기에 이미지 설명을 입력하십시오

나무 A와 B의 결정 경계가 겹쳐진 상태로 평균 출력이 왼쪽에 표시됩니다. 이 경우 출력이 평균 (오른쪽에 표시됨)과 동일한 더 깊은 단일 트리를 구성 할 수 있습니다. 각 노드는 트리 A 및 B로 정의 된 영역 (각 노드에 색상 번호로 표시됨, 여러 숫자는 두 영역의 교차점을 나타냄)으로 구성 할 수있는 입력 공간 영역에 해당합니다. 이 트리는 고유하지 않습니다. 트리 A 대신 트리 B에서 빌드를 시작할 수 있습니다.

이 예는 답변이 "예"인 경우가 있음을 보여줍니다. 이것이 항상 사실 인지 알고 싶습니다 .


2
흠 .. 만약 그렇다면 우리는 왜 임의의 숲을 훈련시킬까요? (500 나무의 선형 조합은 500 나무의 499 가중치 쌍 합계로 다시 표현 될 수 있기 때문에) +1. 좋은 질문입니다.
usεr11852는 Reinstate Monic

흥미로운 질문! 의사 결정 트리와 의사 결정 트리 앙상블 (부스팅, 트리의 선형 조합)의 가설 공간이 동일하다고 가정합니다. 답변을 기대합니다.
Laksan Nathan

아마도 숲 대신 하나의 매우 큰 나무를 사용하는 것이 너무 느리기 때문일까요? 신경망에서와 같이 하나의 숨겨진 계층 네트워크는 이미 모든 연속 기능에 근접하지만 계층을 추가하면 네트워크가 더 빨라집니다. 이것이 사실이 아니라고 말할 수 있습니다.
Harto Saarinen

1
@HartoSaarinen : 이것은 이것에 대한 흥미로운 생각의 방법이지만, 쉽게 잡을 수없는 것 같습니다. 매우 깊은 나무가 과적 합하고 제대로 일반화되지 않을 수도 있습니다 (예측도 상당히 불안정합니다). 또한 (속도 고려 사항과 관련하여) 더 깊은 나무는 기하 급수적으로 더 많은 분할과 더 많은 훈련 시간이 필요합니다. (깊이 10의 나무는 최대 1023 개의 쪼개짐이 있지만 깊이 20의 나무는 1048575로 쪼개진다. 더 많은 작업이있다!)
usεr11852는 Reinstate Monic

1
@ usεr11852 나는 그것이 완전히 사실이 아니며 대답이 완전히 다를 수 있음에 동의합니다. 이것이 현재이 분야를 매우 흥미롭게 만들어주는 많은 것들입니다.
Harto Saarinen

답변:


6

예, 회귀 트리의 가중치 합계는 단일 (더 깊은) 회귀 트리와 같습니다.

범용 함수 근 사기

회귀 트리는 범용 함수 근 사기입니다 (예 : cstheory 참조 ). 보편적 인 함수 근사에 대한 대부분의 연구는 하나의 숨겨진 레이어가있는 인공 신경망에서 이루어집니다 ( 위대한 블로그 읽기 ). 그러나 대부분의 머신 러닝 알고리즘은 범용 함수 근사치입니다.

범용 함수 근사값은 임의의 함수를 대략적으로 나타낼 수 있음을 의미합니다. 따라서 함수가 얼마나 복잡한 지에 관계없이 범용 함수 근사화는 원하는 정밀도로 함수를 나타낼 수 있습니다. 회귀 트리의 경우 무한히 깊은 트리를 상상할 수 있습니다. 이 무한한 깊은 나무는 공간의 모든 지점에 모든 값을 할당 할 수 있습니다.

회귀 트리의 가중치 합계는 다른 임의의 함수이므로 해당 함수를 나타내는 다른 회귀 트리가 있습니다.

그런 나무를 만드는 알고리즘

T 2 T 2 T 1122112

아래 예제는 가중치 0.5로 추가 된 두 개의 간단한 트리를 보여줍니다. 3보다 작고 5보다 큰 숫자가 없으므로 하나의 노드에 도달하지 않습니다. 이는 이러한 트리를 개선 할 수 있지만 유효하지는 않다는 것을 나타냅니다.

여기에 이미지 설명을 입력하십시오

더 복잡한 알고리즘을 사용하는 이유

주석에서 흥미로운 추가 질문이 @ usεr11852에 의해 제기되었습니다. 모든 함수가 간단한 회귀 트리로 모델링 될 수 있다면 왜 부스팅 알고리즘 (또는 실제로 복잡한 기계 학습 알고리즘)을 사용합니까?

회귀 트리는 실제로 모든 기능을 나타낼 수 있지만 머신 러닝 알고리즘에 대한 하나의 기준일뿐입니다. 다른 중요한 속성 중 하나는 일반화 수준입니다. 깊은 회귀 트리는 과적 합되기 쉽습니다. 즉, 일반화되지 않습니다. 임의의 숲은 이것을 막기 위해 많은 깊은 나무를 평균합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.