답변:
아니요, 현재 형태가 아닙니다. 문제는 볼록한 손실 함수가 특이 치에 의한 오염에 강건 해 질 수 없다는 것입니다 (70 년대 이후 잘 알려진 사실이지만 주기적으로 재발견되는 경우가 있습니다.
http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf
이제 회귀 트리의 경우 CART가 한계 값 (또는 일 변량 예측)을 사용한다는 사실을 사용할 수 있습니다. sd 기준이보다 강력한 대응 (MAD 이상으로 대체 된 CART 버전)을 생각할 수 있습니다. Qn 추정기).
나는 최근에 위에서 제안한 접근 방식을 구현하는 오래된 논문을 보았습니다 (MAD 대신 강력한 M 추정기 사용). 이는 "y"특이 치에 CART / RF에 대한 견고성을 부여하지만 설계 공간에있는 특이 치에는 영향을 미치지 않습니다 ( 모델의 하이퍼 파라미터 추정에 영향을 미침).
Galimberti, G., Pillati, M., & Soffritti, G. (2007). M 추정값을 기반으로하는 강력한 회귀 트리 Statistica, LXVII, 173–190.
Breiman의 bagging 또는 random forest 사용을 고려할 수 있습니다 . 좋은 참고 문헌 중 하나는 Breiman "Bagging Predictors" (1996)입니다. 또한 Chandton Sutton의 " Handbook of Statistics " 에있는 "분류 및 회귀 트리, 배깅 및 부스팅" 에 요약되어 있습니다.
randomForest 패키지에 대한 Andy Liaw 및 Matthew Wiener R News 토론 도 볼 수 있습니다 .
R (generalized gradient boosting)에서 'gbm'패키지를 체크 아웃하면 '부스팅'은 반드시 제곱 오차를 의미하지 않는 손실 함수를 사용합니다. 이것은 'gbm ()'함수의 '배포'인수에 나타납니다. 따라서 부스팅을 통한 트리의 정교화는 M 추정기의 작동 방식과 유사하게 특이 치에 내성이 있습니다.
여기서 시작할 수 있습니다 .
또 다른 방법은 일반적인 방법 (SSE 기반 파티션)으로 트리를 구축하는 것이지만 강력한 맞춤 측정 값으로 교차 유효성 검사를 사용하여 트리를 정리하는 것입니다. rpart의 xpred는 (여러 가지 다른 트리 복잡성에 대해) 교차 검증 된 예측 변수를 제공하여 평균 절대 값과 같은 자체 오류 측정을 적용 할 수 있다고 생각합니다.