그라디언트 부스팅 머신이 임의의 포리스트보다 성능이 우수한 조건은 무엇입니까?

Friedman의 그래디언트 부스팅 머신 은 Breiman의 Random Forest 보다 더 나은 성능을 얻을 수 있습니까 ? 그렇다면 어떤 조건에서 어떤 종류의 데이터 세트가 gbm을 향상시킬 수 있습니까?

— 사용자 22062
소스

선험적으로 말할 방법은 없습니다. 당신은 그것을 시도해야합니다.

— bayerj

실제로 Boosting은 거의 항상 RF보다 성능이 뛰어납니다. 왜 그런지 정확히 알지 못하지만 RF가 Boosting보다 성능이 우수한 인스턴스는 직접 경험하지 못했습니다.

— Antoine

@ 레이블이없는 데이터 및 / 또는 레이블 노이즈를 이용한 앙투안 학습은 부스팅을위한 끔찍한 사용 사례 중 하나입니다.

— Marc Claesen

글쎄, RF와 부스팅은 RF가 클러스터링에 사용될 수 있다는 것이 사실 일지라도 감독 학습 학습에 주로 사용됩니다. Adaboost는 노이즈에 의해 크게 영향을받는 지수 손실 함수로 인해 잘못 레이블링하는 데 매우 강력하지는 않지만 일반적인 경우 (예를 들어 다항식 편차가있는 경우) 확률 적 그라디언트 부스팅은 더 강력합니다.

— Antoine

@MarcClaesen이 질문을 좀 주 시겠습니까?

— Antoine

답변:

다음은 Boosting이 일반적으로 Random Forest보다 성능이 우수한 이유에 대한 설명입니다. 그러나 특정 설정에서 RF를 통한 Boosting의 우위를 설명 할 수있는 다른 요소는 무엇인지 알고 싶습니다.

기본적으로 프레임 워크 내에서 RF는 분산을 줄임으로써 오류를 줄일 수 있습니다 ( Hastie et al. 2009 p. 588). 편견은 고정되어 있으며 숲에서 단일 나무의 편견과 동일합니다 (따라서 편견이 매우 작은 큰 나무를 키울 필요가 있습니다). $error=bias+variance$

한편, 부스팅은 (어떤 선행 트리 놓쳐하는 것은 포착되도록 순차적으로 각각의 새로운 트리를 추가하여) 바이어스를 감소 시키지만, 또한 편차 (다수의 모델을 조합함으로써).

따라서 부스팅은 두 전선의 오류를 줄이는 반면 RF는 분산을 줄여 오류 만 줄일 수 있습니다. 물론 내가 말했듯이 실제로 관찰되는 Boosting의 더 나은 성능에 대한 다른 설명이있을 수 있습니다. 예를 들어, 상기 책의 페이지 591, 그것을 증폭 성능이 뛰어 때문에 특정 경우에 중첩 된 영역의 문제에에서 RF 있다고한다 진정한 의사 경계 첨가제입니다 . (?) 또한 스팸 및 캘리포니아 주택 데이터에 대해 부스팅이 RF보다 우수하다고보고합니다.

RF를 능가하는 Boosting은 Caruana and Niculescu-Mizil 2006 입니다. 불행히도 그들은 결과를보고하지만 그 원인을 설명하지는 않습니다. 그들은 두 가지 분류기 (및 그 이상)를 8 가지 성능 지표에 대해 11 가지 이진 분류 문제와 비교했습니다.

— 앙투안
소스

bayerj가 말했듯이, priori를 알 수있는 방법은 없습니다!

랜덤 포레스트 는 상대적으로 캘리브레이션이 용이합니다 : 대부분의 구현 (예 : R 또는 Python)의 기본 매개 변수는 훌륭한 결과를 얻습니다.

반면에 GBM 은 조정하기가 어렵습니다 (너무 많은 수의 나무가 과적 합을 일으키고, 최대 깊이가 중요하며, 학습 속도와 나무의 수가 함께 작동합니다 ...) 더 오래 훈련 (멀티 스레드 구현은 거의 없음) . 느슨하게 튜닝하면 성능이 저하 될 수 있습니다.

그러나 내 경험에 따르면 GBM에 충분한 시간을 보내면 임의 포리스트보다 더 나은 성능을 얻을 수 있습니다.

$m$

— 사용자
소스

A loosely performed tuning may lead to dramatic performance?영어에서는 dramatic매우 훌륭하고 예외적이며 경이로운 등의 의미를 갖기 때문에 오해에주의하십시오 ! 나는 그것이 당신이 말하고 싶었던 것과 반대라고 생각합니다 ... 또한, 신중하게 조정 된 GBM이 RF를 능가하는 이유에 대한 설명이 있습니까? 이것은 기본적으로 질문입니다 ...

— Antoine