답변:
내가 생각할 수있는 커플은 다음과 같습니다.
이 중 일부는 다중 공선 성 문제와 관련이 있습니다 . 두 변수가 모두 같은 것을 설명하면 의사 결정 트리가 가장 탐욕스럽게 선택하는 반면 다른 많은 방법은 두 가지를 모두 사용합니다. 임의 포리스트와 같은 앙상블 메서드는이를 어느 정도 무효화 할 수 있지만 이해하기는 쉽지 않습니다.
그러나 적어도 내 관점에서 볼 때 가장 큰 문제는 원칙적 확률 론적 프레임 워크가 없다는 것입니다. 다른 많은 방법에는 신뢰 구간, 사후 분포 등이 있으므로 모형이 얼마나 좋은지 알 수 있습니다. 의사 결정 트리는 궁극적으로 임시 휴리스틱으로, 여전히 매우 유용 할 수 있지만 (데이터 처리에서 버그의 원인을 찾는 데 탁월함) 사람들이 출력을 "올바른"올바른 모델로 취급 할 위험이 있습니다. 경험, 이것은 마케팅에서 많이 발생합니다).
한 가지 단점은 모든 용어가 상호 작용한다고 가정한다는 것입니다. 즉, 독립적으로 작동하는 두 가지 설명 변수를 가질 수 없습니다. 트리의 모든 변수는 트리의 모든 변수와 상호 작용해야합니다. 상호 작용이 없거나 약한 변수가있는 경우 매우 비효율적입니다.
내 대답은 CART (C 4.5 / C 5 구현)에 관한 것이지만 그것에 국한되지는 않는다고 생각합니다. 내 생각에 이것은 OP가 염두에 둔 것입니다. 보통 "결정 트리"라고 말할 때 누군가가 의미하는 것입니다.
의사 결정 트리의 한계 :
저 성능
'성능'이란 해상도를 의미하는 것이 아니라 실행 속도를 의미 합니다. 열악한 이유는 CART 모델 (이미 훈련 된 트리로 분류 된 데이터)을 업데이트 할 때마다 '트리 다시 그리기'가 필요하므로 트리에 추가하려고합니다 (즉, 교육 데이터 포인트)를 사용하려면 과도하게 시작해야합니다. 대부분의 다른지도 학습 알고리즘과 마찬가지로 점증 적으로 추가 할 수 없습니다. 아마도 이것을 결정하는 가장 좋은 방법은 의사 결정 트리를 배치 모드에서만 온라인 모드에서 학습 할 수 없다는 것입니다. 분명히 분류자를 업데이트하지 않으면이 제한을 알지 못하지만 해상도가 떨어질 것으로 기대합니다.
예를 들어 다중 계층 퍼셉트론의 경우 일단 훈련되면 데이터 분류를 시작할 수 있기 때문에 이는 중요합니다. 의사 결정 트리에서는 전체 데이터 세트 (훈련에 사용 된 원본 데이터 및 새 인스턴스)로 재교육해야합니다.
변수들 간의 복잡한 관계를 가진 데이터에 대한 열악한 분석
의사 결정 트리는 루트 노드에서 시작하여 터미널 노드로 끝나는 알 수없는 클래스의 데이터 포인트 (한 번에 하나의 노드)를 단계적으로 평가하여 분류합니다. 그리고 각 노드에서 두 가지 가능성 (왼쪽-오른쪽) 만 가능하므로 의사 결정 트리에서 배울 수없는 몇 가지 변수 관계가 있습니다.
실질적으로 분류로 제한
의사 결정 트리는 클래스에 데이터 포인트를 할당하도록 훈련을 받았을 때 가장 잘 작동합니다. 나는 회귀 모드에서 의사 결정 트리를 사용하여 성공한 적이 없다고 생각합니다 (예 : 가격 또는 예상 수명 수입과 같은 연속 출력). 이것은 공식적이거나 본질적인 한계가 아니라 실제적인 한계입니다. 대부분의 경우 의사 결정 트리는 요인 또는 불연속 결과 예측에 사용됩니다.
지속적인 기대 변수로 열악한 해결
다시 말하지만 원칙적으로 "다운로드 시간"또는 "이전 온라인 구매 이후 일 수"와 같은 독립 변수를 갖는 것이 좋습니다. 분할 기준을 분산 (일반적으로 이산 변수에 대한 정보 엔트로피 또는 지니 불순물 임)으로 변경하십시오. 이 경우 의사 결정 트리는 거의 효과가 없습니다. "학생 연령"과 같은 경우는 예외적으로 보이지만 실제로는 값의 범위가 매우 작습니다 (특히 정수로보고되는 경우).
여기에는 좋은 대답이 있지만 한 가지 강조되지 않은 것이 놀랍습니다. CART는 데이터, 특히 반응 변수에 대한 분포 가정을하지 않습니다. 반대로 OLS 회귀 (연속 반응 변수) 및 (특정 범주 응답 변수) 로지스틱 회귀, 예컨대 않는 강한 가정을; 구체적으로, OLS 회귀는 응답이 조건부 정규 분포로 가정하고 로지스틱은 응답이 이항 또는 다항이라고 가정합니다.
CART의 이러한 가정 부족은 양날의 칼입니다. 이러한 가정이 보장되지 않을 경우 접근 방식에 상대적 이점이 있습니다. 반면에, 이러한 가정이 유지되면 이러한 사실을 고려하여 데이터에서 더 많은 정보를 추출 할 수 있습니다. 즉, 표준 회귀 방법은 가정이 사실 일 때 CART보다 더 유익 할 수 있습니다.