48

GBM과 Adaboost의 차이점을 이해하려고합니다.

이것들은 내가 지금까지 이해 한 것입니다 :

부스팅 알고리즘은 모두 이전 모델의 오류를 파악하고 모델의 가중치 합계를 만듭니다.
GBM과 Adaboost는 손실 기능을 제외하고는 매우 유사합니다.

그러나 여전히 그들 사이의 차이점에 대한 아이디어를 얻는 것이 어렵습니다. 누군가 나에게 직관적 인 설명을 해줄 수 있습니까?

boosting gbm adaboost

— 윤희경
소스

34

이 소개 가 직관적 인 설명을 제공 할 수 있다는 것을 알았습니다 .

그라디언트 부스팅에서 (기존 약한 학습자의) '단점'은 그라디언트 로 식별됩니다 .

Adaboost에서 '결점'은 높은 데이터 포인트 로 식별됩니다 .

내 이해에 따르면 Adaboost의 기하 급수적 손실은 더 적합하지 않은 샘플에 더 많은 가중치를 부여합니다. 어쨌든 Adaboost는 소개에 제공된 Gradient Boosting의 역사에서 볼 수 있듯이 손실 기능 측면에서 Gradient Boosting의 특별한 경우로 간주됩니다.

최초의 성공적인 증폭 알고리즘 인 발명 Adaboost [Freund et al., 1996, Freund and Schapire, 1997]

특별한 손실 함수를 갖는 구배 하강으로서 Adaboost를 공식화 [Breiman et al., 1998, Breiman, 1999]

다양한 손실 함수를 처리하기 위해 Adaboost를 Gradient Boosting으로 일반화 [Friedman et al., 2000, Friedman, 2001]

— 란델
소스

11

AdaBoost 알고리즘에 대한 직관적 인 설명

@Randel의 탁월한 답변을 바탕으로 다음 요점을 설명하겠습니다.

Adaboost에서 '결점'은 높은 데이터 포인트로 식별됩니다.

AdaBoost 요약

$G_m(x) \ m = 1,2,...,M$

G (x) = sign (α_{1} G_{1} (x) + α_{2} G_{2} (x) + . . . α_{M} G_{M} (x)) = sign (\sum_{m = 1}^{M} α_{m} G_{m} (x))

$G(x) = \text{sign} \left( \alpha_1 G_1(x) + \alpha_2 G_2(x) + ... \alpha_M G_M(x)\right) = \text{sign} \left( \sum_{m = 1}^M \alpha_m G_m(x)\right)$

최종 예측은 가중 다수 투표를 통한 모든 분류 자의 예측 조합입니다.
$\alpha_m$ $G_m(x)$
$w_1, w_2,...,w_N$ $m$
$m=1$ $w_i = 1 / N$

장난감 예제에 대한 AdaBoost

$M = 10$

약한 학습자의 순서와 샘플 가중치 시각화

$m = 1,2...,6$

첫 번째 반복 :

결정 경계는 매우 간단합니다 (선형).
예상대로 모든 포인트의 크기가 동일합니다
6 개의 파란색 점이 빨간색 영역에 있고 잘못 분류되었습니다.

두 번째 반복 :

선형 결정 경계가 변경되었습니다
이전에 잘못 분류 된 파란색 점이 더 커졌으며 (더 큰 sample_weight) 결정 경계에 영향을 미쳤습니다.
9 개의 파란색 점이 잘못 분류되었습니다.

10 회 반복 후 최종 결과

$\alpha_m$

([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...

예상대로 첫 번째 반복은 오 분류가 가장 적은 계수이므로 가장 큰 계수를 갖습니다.

다음 단계

그라디언트 부스팅에 대한 직관적 인 설명-완료

출처와 추가 자료 :

파이썬 코드와 원래 수치는 여기
https://www.cs.cmu.edu/~aarti/Class/10701/slides/Lecture10.pdf

— 자비에르 버렛 시콧
소스

그라디언트 부스팅 트리 (GBM)와 Adaboost의 차이점에 대한 직관적 인 설명