그라디언트 부스팅 트리 (GBM)와 Adaboost의 차이점에 대한 직관적 인 설명


48

GBM과 Adaboost의 차이점을 이해하려고합니다.

이것들은 내가 지금까지 이해 한 것입니다 :

  • 부스팅 알고리즘은 모두 이전 모델의 오류를 파악하고 모델의 가중치 합계를 만듭니다.
  • GBM과 Adaboost는 손실 기능을 제외하고는 매우 유사합니다.

그러나 여전히 그들 사이의 차이점에 대한 아이디어를 얻는 것이 어렵습니다. 누군가 나에게 직관적 인 설명을 해줄 수 있습니까?

답변:


34

이 소개 가 직관적 인 설명을 제공 할 수 있다는 것을 알았습니다 .

  • 그라디언트 부스팅에서 (기존 약한 학습자의) '단점'은 그라디언트 로 식별됩니다 .
  • Adaboost에서 '결점'은 높은 데이터 포인트 로 식별됩니다 .

내 이해에 따르면 Adaboost의 기하 급수적 손실은 더 적합하지 않은 샘플에 더 많은 가중치를 부여합니다. 어쨌든 Adaboost는 소개에 제공된 Gradient Boosting의 역사에서 볼 수 있듯이 손실 기능 측면에서 Gradient Boosting의 특별한 경우로 간주됩니다.

  1. 최초의 성공적인 증폭 알고리즘 인 발명 Adaboost [Freund et al., 1996, Freund and Schapire, 1997]
  2. 특별한 손실 함수를 갖는 구배 하강으로서 Adaboost를 공식화 [Breiman et al., 1998, Breiman, 1999]
  3. 다양한 손실 함수를 처리하기 위해 Adaboost를 Gradient Boosting으로 일반화 [Friedman et al., 2000, Friedman, 2001]

11

AdaBoost 알고리즘에 대한 직관적 인 설명

@Randel의 탁월한 답변을 바탕으로 다음 요점을 설명하겠습니다.


  • Adaboost에서 '결점'은 높은 데이터 포인트로 식별됩니다.

AdaBoost 요약

Gm(x) m=1,2,...,M

G(x)=sign(α1G1(x)+α2G2(x)+...αMGM(x))=sign(m=1MαmGm(x))
  • 최종 예측은 가중 다수 투표를 통한 모든 분류 자의 예측 조합입니다.

  • αmGm(x)

  • w1,w2,...,wNm
  • m=1wi=1/N

장난감 예제에 대한 AdaBoost

M=10

여기에 이미지 설명을 입력하십시오

약한 학습자의 순서와 샘플 가중치 시각화

m=1,2...,6

여기에 이미지 설명을 입력하십시오

첫 번째 반복 :

  • 결정 경계는 매우 간단합니다 (선형).
  • 예상대로 모든 포인트의 크기가 동일합니다
  • 6 개의 파란색 점이 빨간색 영역에 있고 잘못 분류되었습니다.

두 번째 반복 :

  • 선형 결정 경계가 변경되었습니다
  • 이전에 잘못 분류 된 파란색 점이 더 커졌으며 (더 큰 sample_weight) 결정 경계에 영향을 미쳤습니다.
  • 9 개의 파란색 점이 잘못 분류되었습니다.

10 회 반복 후 최종 결과

αm

([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...

예상대로 첫 번째 반복은 오 분류가 가장 적은 계수이므로 가장 큰 계수를 갖습니다.

다음 단계

그라디언트 부스팅에 대한 직관적 인 설명-완료

출처와 추가 자료 :

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.