부스트 회귀 트리 (BRT), 일반화 된 부스트 모델 (GBM) 및 그래디언트 부스팅 머신 (GBM) 조정


9

질문 :

  1. 부스트 회귀 트리 (BRT)와 일반화 된 부스트 모델 (GBM)의 차이점은 무엇입니까? 그것들을 서로 바꿔서 사용할 수 있습니까? 하나는 다른 형태입니까?
  2. Ridgeway에서 Friedman이 이전에 "Gradient Boosting Machine"(GBM)으로 제안한 내용을 설명하기 위해 "GBM (Generalized Boosted Regression Models)"이라는 문구를 사용한 이유는 무엇입니까? 이 두 약어는 동일하지만 동일한 내용을 설명하지만 다른 구에서 파생됩니다.

배경:

BRT와 GBM이라는 용어가 어떻게 다른지 결정하는 데 문제가 있습니다. 내가 이해하는 것에서 일종의 부스팅 (예 : bagging, bootstrapping, cross-validation)을 통해 확률이 통합 된 분류 및 회귀 트리를 설명하는 용어입니다. 또한 GBM이라는 용어에서 Friedman (2001)은 "Greedy function approximation : gradient boosting machine"이라는 논문에서 처음으로 만들어졌습니다. Ridgeway는 2006 년 Friedman이 그의 패키지 "Generalized Boosted Regression Models (GBM)"에 설명 된 절차를 구현했습니다. 내 분야 (생태학)에서 Elith et al. (2008)은 gbm종 분포 모델링을위한 Ridgeway의 패키지를 최초로 시연했습니다 . 그러나 Elith et al. Friedman and Ridgeway를 설명하기 위해 "BRT (boosted regression tree)"라는 용어 사용

이 용어를 서로 바꿔서 사용할 수 있는지 혼란 스럽습니까? 한 저자가 이전의 저자가 제안한 것과 동일한 이론을 설명하기 위해 (다른 문구에서) 동일한 약어를 사용한다는 것은 다소 혼란 스럽습니다. 또한 세 번째 저자가이 이론을 생태 학적 용어로 설명 할 때 완전히 다른 용어를 사용했다는 것은 혼란 스럽습니다.

내가 취할 수있는 최선의 방법은 BRT가 분포가 이항 인 GBM의 특정 형태라는 것입니다.하지만 확실하지 않습니다.

엘리스 등. 부스트 회귀 트리는 다음과 같이 두 가지 알고리즘의 장점을 결합합니다. 최종 BRT 모델은 개별 용어가 단순한 트리이며 앞으로 단계적으로 적용되는가 법적 회귀 모델로 이해 될 수있다 "(Elith et al. 2008).


1
저자의 머리 속에 들어가서 말할 수는 없지만 그 이름이 모두 말하는 것은 그럴듯 해 보입니다. 부스팅은 일련의 약한 학습자를 사용하는 방법입니다. 전형적인 방법은 그루터기와 같은 '작은 나무'입니다. 회귀 트리 모델을 높이면 회귀 트리가 향상됩니다. 선험적으로 범주 형 방법을 포함한 다른 방법을 강화하고 회귀 트리가 아닌 그라디언트 부스팅 머신이라고하는 것을 반환 할 수 있습니다.
meh

나는 세부 사항을 기억하지는 않지만 읽은 한 책은 나무에 그루터기를 사용하면 결과가 게임과 매우 흡사 한 방법을 지적했습니다.
meh

답변:


15

댓글 스레드에서 @aginensky가 언급했듯이 저자의 머리에 들어가는 것은 불가능하지만 BRT는 아마도 gbm모델링 과정에 대한 명확한 설명 일 것입니다. 부스팅, 그라디언트 및 회귀 트리에 대해 물었으므로 여기에 용어에 대한 일반적인 영어 설명이 있습니다. 참고로, CV는 부스팅 방법이 아니라 반복 샘플링을 통해 최적의 모델 파라미터를 식별하는 데 도움이되는 방법입니다. 프로세스에 대한 훌륭한 설명은 여기 를 참조 하십시오 .

부스팅 은 일종의 앙상블 방식 입니다. 앙상블 방법 은 여러 개별 모델의 예측을 집계하여 최종 예측을 수행하는 방법 모음을 말합니다. 부스팅, 배깅 및 스태킹은 널리 구현 된 앙상블 방법입니다. 스태킹 에는 여러 가지 다른 모델을 개별적으로 (선택한 구조에 따라) 맞춤 한 다음 단일 선형 모델로 결합하는 작업이 포함됩니다. 이는 종속 변수에 대한 개별 모델의 예측을 맞추는 방식으로 수행됩니다. LOOCV SSE는 일반적으로 회귀 계수를 결정하는 데 사용되며 각 모델은 기본 함수로 취급됩니다 (제 생각에 이것은 GAM과 매우 유사합니다). 마찬가지로, 자루에 넣기부트 스트랩 된 샘플에 유사한 구조의 여러 모델을 맞추는 것이 포함됩니다. 명백한 내용을 다시 한 번 언급 할 위험이 있으므로 스택 및 배깅은 병렬 앙상블 방법입니다.

그러나 Boosting 은 순차적 인 방법입니다. Friedman과 Ridgeway는 모두 논문에 알고리즘 프로세스를 설명하므로 여기에 두 번째로 삽입하지는 않지만 일반 영어 버전 (그리고 다소 단순화 된 버전)은 각 모델을 최소화하기 위해 모델마다 하나씩 맞추는 것입니다. 이전 모델의 오차에 의해 가중 된 잔차 (축소 매개 변수는 이전 반복에서 각 예측의 잔차 오류에 할당 된 가중치이며 더 작을수록 감당할 수 있음). 추상적 의미에서, 부스팅은 우리가 수행해야 할 새로운 반복 작업에 과거 경험을 적용하는 매우 인간적인 학습 과정으로 생각할 수 있습니다.

이제 전체 의 기울기 부분은 gbm과적 합을 피하기 위해 예측에 사용할 최적의 모델 수 ( 문서 에서 반복이라고 함)를 결정하는 데 사용되는 방법에서 비롯됩니다 . GBM 교육 (검은 색) 및 CV 오류 (녹색) 손실 기능

위의 그림에서 볼 수 있듯이 (이것은 분류 응용 프로그램이지만 회귀에 대해서도 마찬가지입니다.) 알고리즘이 평탄화하기 전에 CV 오류가 가장 크게 감소하는 모델을 알고리즘이 선택함에 따라 CV 오류가 처음에는 급격히 떨어집니다. 앙상블이 과적 합되기 시작하면 다시 올라갑니다. 최적의 반복 횟수는 CV 오차 함수의 변곡점 (기능 기울기가 0 임)에 해당하는 번호이며, 파란색 점선으로 편리하게 표시됩니다.

Ridgeway의 gbm구현은 분류 및 회귀 트리를 사용하며 그의 마음을 읽을 것이라고 주장 할 수는 없지만 나무가 적합 할 수있는 속도와 용이성 (데이터 셰 나니 건에 대한 견고 함은 말하지 않음)이 상당히 큰 영향을 미쳤다고 상상할 수 있습니다. 그의 모델링 기법 선택. 즉, 내가 틀렸을 수도 있지만 사실상 다른 모델링 기술을 구현할 수 없었던 이론적 인 이유를 상상할 수는 없습니다. 다시 말하지만, 나는 리지 웨이의 마음을 알고 주장 할 수 없습니다,하지만 난 상상 일반화 의 일부를gbm의 이름은 다수의 잠재적 응용 프로그램을 나타냅니다. 이 패키지는 회귀 (선형, 포아송 및 Quantile), 이항식 (여러 가지 다른 손실 함수 사용) 및 다항식 분류 및 생존 분석 (또는 최소한 coxph 분포가 표시 인 경우 위험 함수 계산)을 수행하는 데 사용할 수 있습니다.

Elith의 논문은 메모리를 잘 제공하는 경우, 그것은의 확장 기능, 그리고 (나는 GBM 친화적 인 시각화 방법으로 보면서 내가 지난 여름에 그것으로 도망 생각) 막연하게 잘 알고있는 것 같다 gbm가우스 분포로 (회귀에 대한 자동화 된 모델 튜닝에 초점을 맞추고, 도서관을 이항이 아닌) 응용 프로그램 및 개선 된 플롯 생성. GBM이 더 일반적이지만 RBT 명명법이 모델링 기술의 본질을 명확하게하는 데 도움이된다고 생각합니다.

이것이 몇 가지 사항을 분명히하는 데 도움이되기를 바랍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.