의사 결정 트리의 약점은 무엇입니까?


답변:


37

내가 생각할 수있는 커플은 다음과 같습니다.

  • 그것들은 데이터의 작은 섭동에 매우 민감 할 수 있습니다 : 약간의 변화는 나무를 크게 다르게 만들 수 있습니다.
  • 그들은 쉽게 과잉 적합 할 수 있습니다. 이것은 유효성 검사 방법과 잘라내기로 무시할 수 있지만 회색 영역입니다.
  • 표본에서 벗어난 예측에 문제가있을 수 있습니다 (부드럽 지 않은 문제와 관련이 있음).

이 중 일부는 다중 공선 성 문제와 관련이 있습니다 . 두 변수가 모두 같은 것을 설명하면 의사 결정 트리가 가장 탐욕스럽게 선택하는 반면 다른 많은 방법은 두 가지를 모두 사용합니다. 임의 포리스트와 같은 앙상블 메서드는이를 어느 정도 무효화 할 수 있지만 이해하기는 쉽지 않습니다.

그러나 적어도 내 관점에서 볼 때 가장 큰 문제는 원칙적 확률 론적 프레임 워크가 없다는 것입니다. 다른 많은 방법에는 신뢰 구간, 사후 분포 등이 있으므로 모형이 얼마나 좋은지 알 수 있습니다. 의사 결정 트리는 궁극적으로 임시 휴리스틱으로, 여전히 매우 유용 할 수 있지만 (데이터 처리에서 버그의 원인을 찾는 데 탁월함) 사람들이 출력을 "올바른"올바른 모델로 취급 할 위험이 있습니다. 경험, 이것은 마케팅에서 많이 발생합니다).


2
ML 관점에서 트리는 다른 분류기 (예 : CV)와 동일한 방식으로 테스트 할 수 있습니다. 그럼에도 불구하고 오히려 과잉 적합이 발생했음을 보여줍니다. ;-) 또한 RF는 앙상블 때문이 아니라 나무가 차선책이기 때문에 다중 공선 성을 피합니다.

2
의사 결정 트리의 확률 적 프레임 워크에 대해서는 "Wallace CS & Patrick JD,`코딩 결정 트리", 머신 러닝 백서를 기반으로하는 DTREE (url : datamining.monash.edu.au/software/dtree/index.shtml )를 참조하십시오. , 11, 1993, pp7-22 ".
emakalic

2
또한 부트 스트랩을 사용하여 CI (예측 용)를 얻을 수 없습니까?
탈 Galili

@Simon Byrne, 나는 당신의 의견에 대해 의문이 있습니다. "그러나 적어도 내 관점에서 볼 때 가장 큰 문제는 원칙적 확률 론적 틀이 없다는 것입니다." 내 무지를 용서해 주되 실용적이고 원칙적인 확률 론적 틀 (특히 분류의 맥락에서)을 알려 주시겠습니까? 의사 결정 트리의 이러한 제한에 매우 관심이 있습니다.
Amelio Vazquez-Reina

2
@AmV의 한 가지 예는 로지스틱 회귀입니다. 각 관측 값이 이항에서 나온다는 사실을 사용하여 신뢰도 / 신뢰할 수있는 구간을 얻고 모형의 가정을 확인할 수 있습니다.
Simon Byrne

23

한 가지 단점은 모든 용어가 상호 작용한다고 가정한다는 것입니다. 즉, 독립적으로 작동하는 두 가지 설명 변수를 가질 수 없습니다. 트리의 모든 변수는 트리의 모든 변수와 상호 작용해야합니다. 상호 작용이 없거나 약한 변수가있는 경우 매우 비효율적입니다.


이것이 실제 제한 사항인지 궁금합니다. 분류에 약하게 영향을 미치는 변수의 경우, 직관은 Tree가 해당 변수로 분할되지 않을 것입니다 (즉, 노드가되지 않음). 의사 결정 트리 분류가 진행되는 한 보이지 않습니다.
doug

나는 분류에 대한 약한 영향이 아니라 약한 상호 작용에 대해 이야기하고 있습니다. 교호 작용은 두 예측 변수의 관계입니다.
Rob Hyndman

2
이것은 비효율적이지만 트리 구조로 처리 할 수 ​​있습니다.

그렇기 때문에 편견이나 부정확성이 아니라 비효율적이라고 말한 것입니다. 많은 양의 데이터가 있다면 그다지 중요하지 않습니다. 그러나 수백 개의 관측치에 나무를 맞추면 가정 된 상호 작용이 예측 정확도를 크게 떨어 뜨릴 수 있습니다.
Rob Hyndman

2
동의하다; 나는 그것을 강조하고 싶었다. 여전히 적절한 훈련을 통해 예측 정확도의 감소를 제거 할 수 있다고 생각합니다. 계통 발생학에서 비슷한 문제 (욕심)는 가능한 최대 나무를 찾기 위해 가능한 나무 공간을 몬테카를로 스캔함으로써 줄어 듭니다-통계에 비슷한 접근법이 있는지는 모르겠습니다. 범위.

12

내 대답은 CART (C 4.5 / C 5 구현)에 관한 것이지만 그것에 국한되지는 않는다고 생각합니다. 내 생각에 이것은 OP가 염두에 둔 것입니다. 보통 "결정 트리"라고 말할 때 누군가가 의미하는 것입니다.

의사 결정 트리의 한계 :


저 성능

'성능'이란 해상도를 의미하는 것이 아니라 실행 속도를 의미 합니다. 열악한 이유는 CART 모델 (이미 훈련 된 트리로 분류 된 데이터)을 업데이트 할 때마다 '트리 다시 그리기'가 필요하므로 트리에 추가하려고합니다 (즉, 교육 데이터 포인트)를 사용하려면 과도하게 시작해야합니다. 대부분의 다른지도 학습 알고리즘과 마찬가지로 점증 적으로 추가 할 수 없습니다. 아마도 이것을 결정하는 가장 좋은 방법은 의사 결정 트리를 배치 모드에서만 온라인 모드에서 학습 할 수 없다는 것입니다. 분명히 분류자를 업데이트하지 않으면이 제한을 알지 못하지만 해상도가 떨어질 것으로 기대합니다.

예를 들어 다중 계층 퍼셉트론의 경우 일단 훈련되면 데이터 분류를 시작할 수 있기 때문에 이는 중요합니다. 의사 결정 트리에서는 전체 데이터 세트 (훈련에 사용 된 원본 데이터 및 새 인스턴스)로 재교육해야합니다.


변수들 간의 복잡한 관계를 가진 데이터에 대한 열악한 분석

의사 결정 트리는 루트 노드에서 시작하여 터미널 노드로 끝나는 알 수없는 클래스의 데이터 포인트 (한 번에 하나의 노드)를 단계적으로 평가하여 분류합니다. 그리고 각 노드에서 두 가지 가능성 (왼쪽-오른쪽) 만 가능하므로 의사 결정 트리에서 배울 수없는 몇 가지 변수 관계가 있습니다.


실질적으로 분류로 제한

의사 결정 트리는 클래스에 데이터 포인트를 할당하도록 훈련을 받았을 때 가장 잘 작동합니다. 나는 회귀 모드에서 의사 결정 트리를 사용하여 성공한 적이 없다고 생각합니다 (예 : 가격 또는 예상 수명 수입과 같은 연속 출력). 이것은 공식적이거나 본질적인 한계가 아니라 실제적인 한계입니다. 대부분의 경우 의사 결정 트리는 요인 또는 불연속 결과 예측에 사용됩니다.


지속적인 기대 변수로 열악한 해결

다시 말하지만 원칙적으로 "다운로드 시간"또는 "이전 온라인 구매 이후 일 수"와 같은 독립 변수를 갖는 것이 좋습니다. 분할 기준을 분산 (일반적으로 이산 변수에 대한 정보 엔트로피 또는 지니 불순물 임)으로 변경하십시오. 이 경우 의사 결정 트리는 거의 효과가 없습니다. "학생 연령"과 같은 경우는 예외적으로 보이지만 실제로는 값의 범위가 매우 작습니다 (특히 정수로보고되는 경우).


1
일반적으로 충분한 플레이를 얻지 못하는 퍼포먼스 각도에서 좋은 콜을 얻으려면 +1하십시오. 의사 결정 트리가 다른 데이터 마이닝 방법과 비교할 때 대규모 데이터 세트 (예 : SQL Server)를 위해 설계된 여러 소프트웨어 플랫폼에서 성능 문제가 발생하는 것을 보았습니다. 이것은 당신이 제기 한 전체 재교육 문제와는 별개입니다. 과잉 적합이 발생하는 경우 (다른 많은 마이닝 알고리즘으로 말할 수는 있지만) 더 악화되는 것 같습니다.
SQLServerSteve

10

여기에는 좋은 대답이 있지만 한 가지 강조되지 않은 것이 놀랍습니다. CART는 데이터, 특히 반응 변수에 대한 분포 가정을하지 않습니다. 반대로 OLS 회귀 (연속 반응 변수) 및 (특정 범주 응답 변수) 로지스틱 회귀, 예컨대 않는 강한 가정을; 구체적으로, OLS 회귀는 응답이 조건부 정규 분포로 가정하고 로지스틱은 응답이 이항 또는 다항이라고 가정합니다.

CART의 이러한 가정 부족은 양날의 칼입니다. 이러한 가정이 보장되지 않을 경우 접근 방식에 상대적 이점이 있습니다. 반면에, 이러한 가정이 유지되면 이러한 사실을 고려하여 데이터에서 더 많은 정보를 추출 할 수 있습니다. 즉, 표준 회귀 방법은 가정이 사실 일 때 CART보다 더 유익 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.