그라디언트 부스팅 트리 및 임의의 포리스트


110

Friedman이 제안한 그라디언트 트리 부스팅은 의사 결정 트리를 기본 학습자로 사용합니다. 기본 의사 결정 트리를 가능한 한 복잡하게 (완전히 성장) 또는 단순하게 만들어야하는지 궁금합니다. 선택에 대한 설명이 있습니까?

랜덤 포레스트는 의사 결정 트리를 기본 학습자로 사용하는 또 다른 앙상블 방법입니다. 내 이해를 바탕으로, 우리는 일반적으로 각 반복마다 거의 완전히 자란 의사 결정 트리를 사용합니다. 내가 맞아?


1
여기 증폭 나무에 대한 또 다른 좋은 참조를 찾을 수 있습니다 xgboost.readthedocs.io/en/latest/model.html
Naghmeh에게

답변:


149

error = bias + variance

  • 부스팅은 약한 학습자 (높은 편향, 낮은 분산)를 기반으로 합니다. 의사 결정 트리와 관련하여 약한 학습자는 얕은 나무이며 때로는 의사 결정 그루터기 (두 잎이있는 나무)만큼 작습니다. 부스팅은 주로 바이어스를 줄임으로써 (그리고 여러 모델의 출력을 집계하여 어느 정도 분산) 오차를 줄입니다.
  • 반면, 랜덤 포레스트는 완전히 자란 의사 결정 트리 (낮은 편향, 높은 분산) 를 말한대로 사용합니다 . 편차를 줄임으로써 오류 감소 작업을 반대 방식으로 처리합니다. 트리는 분산 감소를 최대화하기 위해 상관 관계가 없지만 알고리즘은 바이어스 (포리스트에서 개별 트리의 바이어스보다 약간 높음)를 줄일 수 없습니다. 따라서 가지 치기하지 않은 큰 나무가 필요하므로 바이어스가 가능한 한 낮습니다.

부스팅 (순차적)과 달리 RF는 트리를 병렬로 확장 합니다. 사용한 용어 iterative가 적합하지 않습니다.


1
"나무는 분산의 감소를 최대화하기 위해 상관 관계가 없지만 알고리즘은 편견 (포리스트의 개별 나무의 편향보다 약간 더 높은 편향)을 줄일 수 없습니다"- "개인의 편견보다 약간 더 높은 부분" 숲 속의 나무 "가 틀린 것 같습니다. web.stanford.edu/~hastie/Papers/ESLII.pdf 섹션 15.4.2 참조 : " 포장 할 때 임의의 숲의 편향은 개별 표본 나무의 편향과 동일합니다." 어쩌면 "원래 데이터에 맞게 완전히 자란 단일 트리의 바이어스보다 약간 더 높다"는 의미일까요?
Adrian

1
@ gung OP에서 대답하지 않은 주요 질문이 있다고 생각합니다. GBM의 첫 번째 단계에서 완전히 자란 나무를 사용하지 않는 이유는 무엇입니까? 하나의 완전히 자란 나무보다 약한 학습자 순서를 사용하는 것이 왜 좋은가? 궁금합니다
ftxx

55

이 질문은이 아주 좋은 게시물에서 다뤄집니다. 그것과 그 안의 참조를 살펴보십시오. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

기사에서 교정에 대해 말하고 그것에 관한 다른 (좋은) 블로그 게시물에 대한 링크를 언급합니다. 그래도 부스팅에서 교정 된 확률 얻기 라는 문서를 통해 부스트 분류기의 상황에서 교정이 무엇인지, 그리고이를 수행하는 표준 방법이 무엇인지 더 잘 이해할 수 있습니다.

그리고 마지막으로 한 가지 측면이 누락되었습니다 (좀 더 이론적으로). RF와 GBM은 모두 앙상블 방식이므로 분류기를 여러 개의 더 작은 분류기로 작성합니다. 이제 근본적인 차이점은 사용 된 방법에 있습니다.

  1. RF는 과잉 피팅되기 쉬운 의사 결정 트리를 사용합니다. 높은 정확도를 달성하기 위해 RF는 배깅을 기반으로 많은 수의 데이터를 생성하기로 결정합니다 . 기본 아이디어는 반복해서 데이터를 리샘플링하고 각 샘플마다 새로운 분류기를 훈련시키는 것입니다. 다른 분류 기준은 다른 방식으로 데이터에 적합하며 투표를 통해 이러한 차이를 평균화합니다.
  2. GBM은 부스팅 방법으로 약한 분류 자를 기반으로 합니다. 아이디어는 한 번에 분류기를 추가하여 다음 분류 기가 이미 훈련 된 앙상블을 향상 시키도록 훈련시키는 것입니다. RF의 각 반복에 대해 분류기는 나머지와 독립적으로 학습됩니다.

3
RF가 GBM 이상을 능가한다는 것은 당신의 대답으로부터 정당한 결론일까요?
8forty

4
@ 8forty 나는 그 결론을 도출하지 않을 것입니다-RF의 단일 트리는 GBM의 단일 트리보다 훨씬 더 적합하지만 (이들은 훨씬 작기 때문에) RF에서는 많은 트리를 사용할 때 이러한 과잉 적합이 평균화됩니다 GBM을 추가할수록 나무 수가 많을수록 과적 합의 위험이 높아집니다. 요컨대, N (사용 된 나무의 수)이 무한대로됨에 따라 RF가 GBM보다 훨씬 적을 것으로 예상합니다.
Ant
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.