분류 및 회귀 트리 뒤의 수학


14

누구든지 CART 분류의 일부 수학을 설명 할 수 있습니까? 두 가지 주요 단계가 어떻게 진행되는지 이해하려고합니다. 예를 들어 데이터 세트에 대해 CART 분류기를 훈련시키고 예측 데이터를 표시하기 위해 테스트 데이터 세트를 사용했지만 다음과 같습니다.

  1. 나무의 초기 뿌리는 어떻게 선택됩니까?

  2. 각 가지가 왜 그리고 어떻게 형성됩니까?

15 개의 열과 23 개의 클래스가있는 4 만 개의 레코드 인 데이터 세트는 혼란 매트릭스에서 100 % 정확도를 얻습니다. 데이터 세트에서 10 배 교차 검증을 사용합니다. 누군가가 CART 분류의 단계를 설명 할 수 있다면 정말 좋을까요?

답변:


24

알고리즘과 같은 CART 및 의사 결정 트리는 주어진 목표 클래스에 대해 가능한 순수한 서브 세트를 얻기 위해 학습 세트의 재귀 분할을 통해 작동합니다. 트리의 각 노드 는 기능의 특정 테스트에 의해 분할 된 특정 레코드 세트 와 연관됩니다 . 예를 들어, 연속적인 속성 A 에서의 분할 은 테스트 A x에 의해 유발 될 수 있습니다 . 그런 다음 레코드 세트 T 는 트리의 왼쪽 분기와 오른쪽 분기로 이어지는 두 개의 하위 세트로 분할됩니다.TAAxT

Tl={tT:t(A)x}

Tr={tT:t(A)>x}

마찬가지로 범주 형 특징 를 사용하여 값에 따라 분할을 유도 할 수 있습니다. 예를 들어, B = { b 1 , , b k } 이면 각 분기 i 는 테스트 B = b i에 의해 유도 될 수 있습니다 .BB={b1,,bk}iB=bi

의사 결정 트리를 유도하기위한 재귀 알고리즘의 나누기 단계는 각 기능에 대해 가능한 모든 분할을 고려하고 선택한 품질 측정 (분할 기준)에 따라 최상의 분할을 찾습니다. 다음 체계에 따라 데이터 세트가 유도 된 경우

A1,,Am,C

AjC(E1,E2,,Ek)EI()

Δ=I(E)i=1k|Ei||E|I(Ei)

EpjEcj

pj=|{tE:t[C]=cj}||E|
Gini(E)=1j=1Qpj2
Q

모든 레코드가 동일한 클래스에 속할 때 불순물이 0이됩니다.

T(1/2,1/2)T

좋은 분할

Tl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ

Δ=11/221/2200=1/2

Δ불량 분할

Δ=11/221/221/2(1(3/4)2(1/4)2)1/2(1(1/4)2(3/4)2)=1/21/2(3/8)1/2(3/8)=1/8

첫 번째 분할은 최상의 분할로 선택되고 알고리즘은 재귀 방식으로 진행됩니다.

의사 결정 트리를 사용하여 새 인스턴스를 쉽게 분류 할 수 있습니다. 실제로 루트 노드에서 리프까지의 경로를 따르는 것으로 충분합니다. 레코드는 도달하는 리프의 대다수 클래스로 분류됩니다.

이 그림 에서 사각형 을 분류하고 싶다고 가정 해보십시오.

두 기능 데이터 세트

A,B,CCAB

가능한 의사 결정 트리는 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

레코드 사각형 은 레코드가 원으로 표시된 잎에 떨어지면 의사 결정 트리에 의해 원으로 분류되는 것이 분명합니다 .

이 장난감 예제에서 훈련 세트의 정확도는 100 %입니다. 기록은 트리에 의해 잘못 분류되지 않기 때문입니다. 위의 훈련 세트의 그래픽 표현에서 트리가 새 인스턴스를 분류하는 데 사용하는 경계 (회색 점선)를 볼 수 있습니다.

의사 결정 트리에 관한 많은 문헌이 있습니다. 나는 단지 스케치를 소개하고 싶었습니다. 또 다른 유명한 구현은 C4.5입니다.


1
훌륭한 다이어그램!
Cam.Davidson.Pilon

고마워, 불행히도 편집기는 PDF 형식의 업로드를 지원하지 않는 것 같습니다. 그들은 vectorial했다.
시몬

2

저는 CART 전문가는 아니지만 온라인에서 무료로 이용할 수있는 "통계 학습 요소" 책을 사용해 볼 수 있습니다 (CART 9 장 참조). 이 책은 CART 알고리즘 (Friedman)의 제작자 중 한 사람이 작성했다고 생각합니다.


그것은 많은 도움이되었습니다! +1 화려하게 찾기!
G Gr

@GarrithGraham 문제 없습니다.이 무료 도서는 "잘 알려진 비밀"이라고 생각했습니다.
비트 단위
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.