답변:
이것은 GBM입니다.
" 나는 생각하지 않습니다 ... "많은 문장의 첫 번째 위험한 부분이었습니다.
선량, 루 브릭이 없으면 충분합니다.
다른 방법에 대한 선의 척도는 무엇입니까?
신경망 또는 스플라인과 같이 데이터에 대해 부분 선형 보간을 수행하고 일반화 할 수없는 모델을 얻을 수 있습니다. 일반적인 적용 성-일반화와 교환하여 "낮은 오류"를 포기해야합니다.
더 많은 링크 :
문제에 대한 통찰력을 찾았습니다 : http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf
이 gbm.step
함수는 최적의 트리 수를 결정하는 데 사용할 수 있습니다. 특정 수의 나무 이후에 모델 편차가 증가하는 원인이 무엇인지 여전히 확실하지 않으므로 질문 의이 부분에 대한 답변을 기꺼이 수락합니다!
이 Elith 등 :에서 밀어 회귀 나무에 작업 GUID입니다 http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full가 매우 도움이!
최소한 1000 그루의 나무를 사용해야합니다. 내가 이해하는 한, 학습 속도, 트리 복잡성 및 최소 예측 오류를 달성하는 트리 수의 조합을 사용해야합니다. 학습률의 값이 작을수록 동일한 반복 횟수에 대해 교육 위험이 커지지 만 반복 할 때마다 교육 위험이 줄어 듭니다. 나무의 수가 충분히 많으면 위험을 임의로 줄일 수 있습니다 ( Hastie et al., 2001, "통계학 학습, 데이터 마이닝, 추론 및 예측의 요소"참조 ).
일부 머신 러닝 알고리즘에서와 마찬가지로 Boosting은 트리 수와 관련하여 바이어스-분산 트레이드 오프가 적용됩니다. 느슨하게 말하면,이 트레이드 오프는 다음과 같이 알려줍니다 : (i) 약한 모델은 높은 편향과 낮은 분산을 갖는 경향이 있습니다 : 모델이 훈련 데이터 세트의 변동성을 포착하기에는 너무 단단하므로 테스트 세트에서도 잘 수행되지 않습니다 (높은 테스트 오류) (ii) 매우 강한 모델은 낮은 편향과 높은 분산을 갖는 경향이 있습니다. 모델이 너무 유연하고 훈련 세트에 비해 적합하므로 테스트 세트 (데이터 포인트가 훈련 세트와 다르기 때문에)에서도 성능이 좋지 않습니다. (높은 테스트 오류)
나무 부스팅의 개념은 얕은 나무 (약한 모델)로 시작하고 이전 나무 약점을 수정하려고하는 더 얕은 나무를 계속 추가하는 것입니다. 이 프로세스를 수행하면 전체 모델이 더 유연하고 강력 해지기 때문에 테스트 오류가 줄어드는 경향이 있습니다. 그러나 해당 트리를 너무 많이 추가하면 훈련 데이터가 과적 합되기 시작하여 테스트 오류가 증가합니다. 교차 검증은 스위트 스팟을 찾는 데 도움이됩니다.