일반화 된 부스트 회귀 모델에서 트리 수를 선택하는 방법은 무엇입니까?


11

GBM에서 트리 수를 선택하기위한 전략이 있습니까? 특히, ntrees의 인자 Rgbm함수.

왜 당신이 ntrees가장 높은 합리적인 가치로 설정되어서는 안되는지 모르겠습니다 . 많은 수의 나무가 여러 GBM의 결과 변동성을 명확하게 감소시키는 것으로 나타났습니다. 나는 많은 나무가 과적 합으로 이어질 것이라고 생각하지 않습니다.

이견있는 사람?

답변:


3

이것은 GBM입니다.

" 나는 생각하지 않습니다 ... "많은 문장의 첫 번째 위험한 부분이었습니다.

선량, 루 브릭이 없으면 충분합니다.

다른 방법에 대한 선의 척도는 무엇입니까?

  • 모델과 데이터의 차이 (sse, ...)
  • 홀드 아웃 세트에서 오차의 발산 (훈련 오차 대 테스트 오차)
  • 파라미터 카운트 대 샘플 카운트 비율
  • 교차 검증 (에러 테스트의 분기에 대한 앙상블 방법)

신경망 또는 스플라인과 같이 데이터에 대해 부분 선형 보간을 수행하고 일반화 할 수없는 모델을 얻을 수 있습니다. 일반적인 적용 성-일반화와 교환하여 "낮은 오류"를 포기해야합니다.

더 많은 링크 :


2

문제에 대한 통찰력을 찾았습니다 : http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.step함수는 최적의 트리 수를 결정하는 데 사용할 수 있습니다. 특정 수의 나무 이후에 모델 편차가 증가하는 원인이 무엇인지 여전히 확실하지 않으므로 질문 의이 부분에 대한 답변을 기꺼이 수락합니다!


2
과적 합하면 증가합니다. 가장 좋은 방법은 홀드 아웃 세트를 만들어 모델을 테스트하는 데 사용하지만 모델을 업데이트하지는 않습니다. 이를 통해 초과 피팅의 시작을 감지 할 수 있습니다.
EngrStudent

0

이 Elith 등 :에서 밀어 회귀 나무에 작업 GUID입니다 http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full가 매우 도움이!

최소한 1000 그루의 나무를 사용해야합니다. 내가 이해하는 한, 학습 속도, 트리 복잡성 및 최소 예측 오류를 달성하는 트리 수의 조합을 사용해야합니다. 학습률의 값이 작을수록 동일한 반복 횟수에 대해 교육 위험이 커지지 만 반복 할 때마다 교육 위험이 줄어 듭니다. 나무의 수가 충분히 많으면 위험을 임의로 줄일 수 있습니다 ( Hastie et al., 2001, "통계학 학습, 데이터 마이닝, 추론 및 예측의 요소"참조 ).


Elith et al. 일반적으로 1000 그루의 나무를 사용하는 것이 좋습니다. 그러나 이는 논문에 사용 된 특정 데이터 세트에 대한 예측 안정성에 대한 자세한 분석을 기반으로합니다. 가능한 데이터 집합에 대해 같은 숫자가 작동하지 않을 것 같습니다. 특히 부록 S1에서 수행 한 분석에 대한 세부 정보를 제공하여 답변을 조금 확장 할 수 있습니다.
DeltaIV

0

일부 머신 러닝 알고리즘에서와 마찬가지로 Boosting은 트리 수와 관련하여 바이어스-분산 트레이드 오프가 적용됩니다. 느슨하게 말하면,이 트레이드 오프는 다음과 같이 알려줍니다 : (i) 약한 모델은 높은 편향과 낮은 분산을 갖는 경향이 있습니다 : 모델이 훈련 데이터 세트의 변동성을 포착하기에는 너무 단단하므로 테스트 세트에서도 잘 수행되지 않습니다 (높은 테스트 오류) (ii) 매우 강한 모델은 낮은 편향과 높은 분산을 갖는 경향이 있습니다. 모델이 너무 유연하고 훈련 세트에 비해 적합하므로 테스트 세트 (데이터 포인트가 훈련 세트와 다르기 때문에)에서도 성능이 좋지 않습니다. (높은 테스트 오류)

나무 부스팅의 개념은 얕은 나무 (약한 모델)로 시작하고 이전 나무 약점을 수정하려고하는 더 얕은 나무를 계속 추가하는 것입니다. 이 프로세스를 수행하면 전체 모델이 더 유연하고 강력 해지기 때문에 테스트 오류가 줄어드는 경향이 있습니다. 그러나 해당 트리를 너무 많이 추가하면 훈련 데이터가 과적 합되기 시작하여 테스트 오류가 증가합니다. 교차 검증은 스위트 스팟을 찾는 데 도움이됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.