CART 모델을 견고하게 만들 수 있습니까?


14

내 사무실의 한 동료가 오늘 나에게 말했다.

여기에서 검색 하면 기본적으로 주장을 지원하는 스레드 가 생겼습니다 .

어떤 상황에서 CART 모델이 어떤 상황에서 견고해질 수 있으며 어떻게 표시됩니까?

답변:


15

아니요, 현재 형태가 아닙니다. 문제는 볼록한 손실 함수가 특이 치에 의한 오염에 강건 해 질 수 없다는 것입니다 (70 년대 이후 잘 알려진 사실이지만 주기적으로 재발견되는 경우가 있습니다.

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

이제 회귀 트리의 경우 CART가 한계 값 (또는 일 변량 예측)을 사용한다는 사실을 사용할 수 있습니다. sd 기준이보다 강력한 대응 (MAD 이상으로 대체 된 CART 버전)을 생각할 수 있습니다. Qn 추정기).

편집하다:

나는 최근에 위에서 제안한 접근 방식을 구현하는 오래된 논문을 보았습니다 (MAD 대신 강력한 M 추정기 사용). 이는 "y"특이 치에 CART / RF에 대한 견고성을 부여하지만 설계 공간에있는 특이 치에는 영향을 미치지 않습니다 ( 모델의 하이퍼 파라미터 추정에 영향을 미침).

Galimberti, G., Pillati, M., & Soffritti, G. (2007). M 추정값을 기반으로하는 강력한 회귀 트리 Statistica, LXVII, 173–190.


고마워요 이 기사는 부스팅 방법에 대해 이야기하는 것 같습니다. 그들이 제시 한 결과가 CART 모델의 간단한 분류기 사례에 적용됩니까? (표면에서 그것은 소리처럼 들리지만 실제로 알 수있을만큼 기사를 거치지 않았습니다)
Tal Galili

이들이 제시 한 결과는 볼록 손실 기능에 적용되며 처음에는 Tukey에서 논의했습니다. 요약하면, 노드의 품질을 정량화하는 데 사용되는 산포도 (지니 또는 엔트로피)는 특이 치 (예 : 데이터 집합에서 레이블이 잘못 지정된 관측치)에 의한 오염에 민감합니다. 이 문제는 건물과 실행 단계 모두에 영향을 미칩니다. 잘못 대치 된 레이블로 관찰하여 데이터 세트를 오염 시키면 일반적으로 결과 트리가 너무 복잡해집니다 (자신이 쉽게 점검 할 수 있음).
user603

감사합니다! 그리고 강력한 손실 기능이 없습니까?
탈 Galili

1
볼록 하지 않은 손실 기능이 . 비 볼록 손실 함수로 수행 할 수있는 작업에 대한 예는 "최소 공분산 결정 요인에 대한 빠른 알고리즘"기사를 참조하십시오 (분류와 관련이 없지만 기사는 읽을 가치가 있습니다).
user603

2
@Tal CART는 "피벗 분류기"(일부 속성보다 속성 강판 또는 설정 값의 속성 값과 같은 각 트리 노드에있는 기준)를 높이는 것과 같습니다.

6

Breiman의 bagging 또는 random forest 사용을 고려할 수 있습니다 . 좋은 참고 문헌 중 하나는 Breiman "Bagging Predictors" (1996)입니다. 또한 Chandton Sutton의 " Handbook of Statistics " 에있는 "분류 및 회귀 트리, 배깅 및 부스팅" 에 요약되어 있습니다.

randomForest 패키지에 대한 Andy Liaw 및 Matthew Wiener R News 토론 도 볼 수 있습니다 .


2
파티를 망칠 수는 없지만, 특이한 숲이 어떻게 이상치에 의한 오염에 견고성을 제공해야하는지는 미스터리입니다.
user603

3
@kwak 아직도, 이것은 좋은 답변입니다. RF의 나무는 전체 세트를 보지 못하므로 많은 나무가 오염되지 않습니다. 더 나은 방법-OOB 사례 토지의 잎 추적 위치를 잘못 표시 한 개체를 찾아 제거하는 데 사용할 수 있습니다. (지금 기억 하듯이, 이것은 Breiman의 RF에 관한 논문에 언급되어 있습니다).

4
문제는 특이 치가 일부 '나쁜'(즉, 오염 된) 나무를 좋은 (오염되지 않은) 나무보다 낫게 보이게한다는 것입니다. 이를 마스킹 효과라고하며 시뮬레이션 된 데이터로 쉽게 복제 할 수 있습니다. 나무를 평가하는 데 사용하는 기준이 그 자체로 특이 치에 강하지 않기 때문에 문제가 발생합니다. 나는 근본주의 뮬라처럼 들리기 시작한다는 것을 알고 있지만, 사용하는 모든 도구가 강력하지 않으면 절차가 특이 치에 민감하게 표시 될 수 있습니다 (따라서 강력하지 않음).
user603

3

R (generalized gradient boosting)에서 'gbm'패키지를 체크 아웃하면 '부스팅'은 반드시 제곱 오차를 의미하지 않는 손실 함수를 사용합니다. 이것은 'gbm ()'함수의 '배포'인수에 나타납니다. 따라서 부스팅을 통한 트리의 정교화는 M 추정기의 작동 방식과 유사하게 특이 치에 내성이 있습니다.

여기서 시작할 수 있습니다 .

또 다른 방법은 일반적인 방법 (SSE 기반 파티션)으로 트리를 구축하는 것이지만 강력한 맞춤 측정 값으로 교차 유효성 검사를 사용하여 트리를 정리하는 것입니다. rpart의 xpred는 (여러 가지 다른 트리 복잡성에 대해) 교차 검증 된 예측 변수를 제공하여 평균 절대 값과 같은 자체 오류 측정을 적용 할 수 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.