CHAID vs CRT (또는 CART)


23

약 20 개의 예측 변수가있는 데이터 세트 (몇 가지 범주로 범주화 된)에서 SPSS 를 사용하여 의사 결정 트리 분류를 실행하고 있습니다. CHAID (Chi-squared Automatic Interaction Detection)와 CRT / CART (Classification and Regression Trees)는 다른 트리를 제공합니다. 누구나 CHAID와 CRT의 상대적인 장점을 설명 할 수 있습니까? 한 방법을 다른 방법으로 사용하면 어떤 의미가 있습니까?

답변:


23

나는 몇 가지 속성을 나열하고 나중에 그 가치에 대한 나의 평가를 줄 것이다.

  • CHAID는 기본적으로 다중 분할 을 사용합니다 (다중 분할은 현재 노드가 두 개 이상의 노드로 분할됨을 의미합니다). 이것은 바람직하거나 바람직하지 않을 수 있습니다 (더 나은 세그먼트 또는 더 쉬운 해석으로 이어질 수 있습니다). 그러나 그것이 확실히하는 것은 노드의 샘플 크기가 얇아져 깊이가 떨어지는 나무입니다. 분할 용도로 사용하면 CHAID가 제대로 작동하기 위해 큰 샘플 크기가 필요한 즉시 역효과를 일으킬 수 있습니다. CART는 기본적으로 이진 분할 (각 노드는 두 개의 딸 노드로 분할 됨)을 수행합니다.
  • CHAID는 범주 형 / 분산 된 대상 과 함께 작동하도록 고안되었습니다 (XAID는 회귀 용이지만 그 이후로 병합 된 것일 수 있음). CART는 확실히 회귀 및 분류를 수행 할 수 있습니다.
  • CHAID는 사전 정리 아이디어를 사용합니다 . 유의성 기준이 충족 된 경우에만 노드가 분할됩니다. Chi-Square 테스트는 작은 샘플에서 전력이 거의 없기 때문에 위와 같이 큰 샘플 크기가 필요하다는 위의 문제와 관련이 있습니다 (여러 테스트에 대한 Bonferroni 보정으로 훨씬 더 효과적으로 감소됨). 반면에 CART는 큰 나무를 키운 다음 나무를 더 작은 버전 으로 정리 합니다.
  • 따라서 CHAID는 처음부터 과적 합방지 하려고 시도하지만 (분할 만 중요하게 연관되어 있음), CART는 트리를 정리하지 않으면 쉽게 과적 합할 수 있습니다 . 반면에 CART는 CHAID보다 샘플에서 및 샘플에서 벗어난 성능을 제공합니다 (주어진 튜닝 파라미터 조합에 대해).
  • 내 의견의 가장 중요한 차이점은 CHAID의 분할 변수 및 분할 지점 선택이 CART와 같이 덜 혼동 된다는 것 입니다. 이것은 트리가 예측에 사용될 때 크게 관련이 없지만 트리가 해석에 사용될 때 중요한 문제입니다. 알고리즘의 두 부분이 매우 혼동 된 트리는 "변수 선택에 편향되어 있습니다"(불행한 이름) . 이는 분할 변수 선택이 가능한 많은 분할이있는 변수 (예 : 메트릭 예측 변수)를 선호 함을 의미합니다. CART는 그런 의미에서 매우 "편향적"이며, CHAID는 그다지 중요하지 않습니다.
  • 대리 분할을 사용하여 CART는 결 측값을 처리하는 방법을 알고 있습니다 (대리 분할은 예측 변수에 대해 결 측값 (NA)이있는 경우 알고리즘이 기본 분할 변수만큼 "양호하지는 않지만 다른 기본 예측 변수를 사용하지만 기본에 의해 생성 된 분할을 모방 함을 의미합니다" 쪼개는 도구). CHAID에는 그런 것이 없습니다.

따라서 필요한 것에 따라 표본의 크기가 크고 해석 측면이 더 중요한 경우 CHAID를 사용하는 것이 좋습니다. 또한 멀티 웨이 분할 또는 더 작은 트리가 필요한 경우 CHAID가 더 좋습니다. 반면에 CART는 잘 작동하는 예측 기계이므로 예측이 목표라면 CART로 이동합니다.


1
(+1). 좋은 개요. "멀티 웨이 분할"과 "대리 분할"이 무엇인지 설명해 주시겠습니까? 스플릿이 이분법이 아닌 경우 멀티 웨이 스플릿입니까?
COOLSerdash

1
@Momo : 업데이트 된 답변에 대단히 감사합니다. 다자간 분할과 관련하여 Hastie et al. (2013) 통계 학습의 요소 : "[...]이 [멀티 웨이 분할]은 때때로 유용 할 수 있지만 일반적인 전략은 아닙니다. [...] 멀티 웨이 분할은 일련의 이진법에 의해 달성 될 수 있기 때문에 분할, 후자가 선호됩니다. " 나는 이것이 기계 학습에 익숙하지 않은 것처럼 실제로 명확한 지 궁금하지만, 반면에, 그들의 책은 참조로 간주됩니다.
COOLSerdash

예, 일련의 이진 분할은 다 방향 분할과 동일 할 수 있습니다. 그들은 또한 다를 수 있습니다. 나는 진술에 동의하는 경향이있다. 주의해야 할 또 다른 사항은 철저한 검색으로 분할 지점을 찾는 것이 주어진 노드의 이진 분할에 대해 알고리즘 적으로 간단하고 빠르다는 것입니다.
Momo

매우 완전한 답변. 100.000 개 이상의 데이터베이스가있는 reaserch에서 CHAID를 사용했습니다. 이 수준에서 분류는 매우 정밀하지만 다른 수의 파티션과 트리의 수준이 낮은 트리 (SPSS 소프트웨어를 사용하면이 매개 변수를 미리 결정할 수 있음)로 몇 번 시도하는 것이 좋습니다. 이는 CHAID가 여러 개의 grup (multisplit)을 가진 분류 트리를 생성하고 데이터베이스가 큰 경우 훨씬 더 나쁘기 때문입니다. 마지막 나무는 거대했습니다. 마지막으로, 데이터베이스 샘플 분할의 "내부 제어"를 사용하는 것을 잊지 마십시오. 끈적 거리는에서 SPSS 분류 나무 매뉴얼도 가능 참조
user35523

QUEST는 어떻습니까?
Madhu Sareen

8

모든 단일 트리 방법에는 엄청난 수의 다중 비교가 포함되어 결과에 큰 불안정성을 초래합니다. 그렇기 때문에 어떤 형태의 나무 평균화 (포장, 부스팅, 임의의 숲)가 필요합니다 (나무의 이점을 잃는다는 점을 제외하고는 해석 성). 단일 트리의 단순성은 대체로 환상입니다. 데이터의 여러 하위 집합에 대해 트리를 학습하면 트리 구조간에 큰 불일치가 발생한다는 점에서 잘못 되었기 때문에 단순합니다.

나는 최근의 CHAID 방법론을 보지 않았지만 원래 화신의 CHAID는 데이터를 과도하게 해석하는 데 큰 운동이었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.