통계 및 빅 데이터 bagging

7

이 세 가지 방법의 유사점과 차이점은 무엇입니까? 포장지, 일러스트레이션, 스태킹? 어느 것이 가장 좋은가요? 그리고 왜? 각각에 대해 예를 들어 주시겠습니까?

245 machine-learning boosting ensemble bagging model-averaging

5

부스팅의 짧은 정의 : 약한 학습자 세트가 하나의 강력한 학습자를 만들 수 있습니까? 약한 학습자는 실제 분류와 약간만 관련이있는 분류 자로 정의됩니다 (임의 추측보다 예제를 더 잘 레이블링 할 수 있음). 랜덤 포레스트 의 짧은 정의 : 랜덤 포레스트는 많은 분류 트리를 자랍니다. 입력 벡터에서 새 개체를 분류하려면 입력 벡터를 …

51 machine-learning random-forest boosting bagging

2

이것이 최첨단 회귀 방법론입니까?

저는 오랫동안 Kaggle 대회를 따라 왔으며 많은 우승 전략에는 "빅 3"중 하나 이상을 사용하는 것이 포함되어 있습니다. 포장, 부스팅 및 스태킹. 회귀 분석의 경우 가능한 최상의 회귀 모델을 작성하는 데 초점을 맞추지 않고 (일반화 된) 선형 회귀, 임의 포리스트, KNN, NN 및 SVM 회귀 모델과 같은 다중 회귀 모델을 작성하고 …

33 predictive-models boosting bagging stacking model-averaging

2

랜덤 포레스트에서 "노드 크기"란 무엇입니까?

노드 크기의 의미를 정확히 이해하지 못합니다. 의사 결정 노드가 무엇인지 알고 있지만 노드 크기는 무엇인지 알지 못합니다.

20 machine-learning random-forest bagging

3

앙상블 분류기를 언제 사용하지 않아야합니까?

일반적으로 샘플 외부 클래스 멤버십을 정확하게 예측하는 것이 목표 인 분류 문제에서 앙상블 분류기를 사용 하지 않아야 하는 시점은 언제 입니까? 이 질문은 항상 앙상블 학습을 사용하지 않는 이유 와 밀접한 관련이 있습니다. . 이 질문은 왜 앙상블을 항상 사용하지 않는지 묻습니다. 나는 앙상블이 아닌 것 보다 앙상블이 더 나쁜 …

17 classification boosting ensemble bagging

1

포장에 대한 이론적 보증은 무엇입니까

나는 (대략) 들었습니다. 배깅은 예측기 / 추정기 / 학습 알고리즘의 분산을 줄이는 기술입니다. 그러나 나는이 진술에 대한 공식적인 수학적 증거를 본 적이 없다. 왜 이것이 수학적으로 사실인지 아는 사람이 있습니까? 그것은 널리 알려진 / 알려진 사실 인 것 같습니다. 나는 이것에 대한 직접적인 언급을 기대합니다. 없는 것이 있으면 놀랐습니다. 또한, …

17 machine-learning mathematical-statistics bagging

1

나무 부스팅 및 배깅 (XGBoost, LightGBM)

나무 를 꾸리 거나 부스팅 하는 아이디어에 대한 많은 블로그 게시물, YouTube 비디오 등이 있습니다. 내 일반적인 이해는 각각에 대한 의사 코드는 다음과 같습니다. 포장 : 표본의 x %와 특징의 y %의 N 개의 랜덤 표본 추출 각 N에 모델 (예 : 의사 결정 트리)을 적합 각 N으로 예측 최종 …

17 cart boosting xgboost bagging

1

lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?

하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

scikit-learn 부트 스트랩 기능이 테스트 세트를 다시 샘플링하는 이유는 무엇입니까?

모델 평가에 부트 스트랩을 사용할 때 항상 가방 외부 샘플이 테스트 세트로 직접 사용되었다고 생각했습니다. 그러나 이것은 더 이상 사용되지 않는 scikit-learnBootstrap 접근법 의 경우가 아닌 것으로 보입니다. 이것에 대한 통계적 추론은 무엇입니까? 이 기술이 백 오브 샘플을 평가하는 것보다 좋은 특정 시나리오가 있습니까?

15 cross-validation bootstrap random-forest scikit-learn bagging

1

랜덤 포레스트의 합법적 인 후속 알고리즘은 무엇입니까?

알고리즘을 증폭시키기 위해, 나는 그것들이 꽤 잘 진화했다고 말할 것입니다. 1995 년 초 AdaBoost가 소개 된 후 얼마 지나지 않아 그라디언트 부스팅 머신 (GBM)이었습니다. 최근, 2015 년경 XGBoost가 도입되었으며, 이는 정확하고 과적 합을 처리하며 여러 개의 Kaggle 경쟁의 승자가되었습니다. 2017 년에 Microsoft에서 LightGBM을 도입했으며 XGBoost에 비해 교육 시간이 크게 단축되었습니다. …

14 random-forest boosting bagging

5

랜덤 포레스트 및 의사 결정 트리 알고리즘

임의의 포리스트는 배깅 개념을 따르는 의사 결정 트리 모음입니다. 한 의사 결정 트리에서 다음 의사 결정 트리로 이동할 때 마지막 의사 결정 트리에서 학습 한 정보는 다음 의사 결정으로 어떻게 넘어 갑니까? 내 이해에 따라 모든 의사 결정 트리에 대해 생성 된 다음 다음 의사 결정 트리가 잘못 분류 된 …

14 machine-learning random-forest cart bagging

3

랜덤 포레스트 및 부스팅 파라 메트릭 또는 비 파라 메트릭입니까?

탁월한 통계 모델링 을 읽음으로써 두 문화 (Breiman 2001) 는 전통적인 통계 모델 (예 : 선형 회귀)과 기계 학습 알고리즘 (예 : 배깅, 랜덤 포레스트, 부스트 트리 ...)의 모든 차이점을 파악할 수 있습니다. Breiman은 데이터 모델 (모수)이 통계를 통해 알려진 자연스럽고 모방 된 공식 모델에 의해 관측이 생성된다는 가정에 근거하기 …

13 machine-learning data-mining random-forest boosting bagging

1

항상 앙상블 학습을 사용하지 않는 이유는 무엇입니까?

앙상블 학습은 단일 학습 가설보다 항상 더 나은 예측 성능을 제공 할 것 같습니다. 그렇다면 왜 항상 사용하지 않습니까? 내 추측은 아마도 계산상의 한계 때문입니까? (그런데도 약한 예측 변수를 사용하므로 잘 모르겠습니다).

13 boosting ensemble bagging

2

포장 된 트리 / 임의의 포리스트 트리가 단일 의사 결정 트리보다 높은 편향을 갖는 이유는 무엇입니까?

완전히 성장한 의사 결정 트리 (즉, 정리되지 않은 의사 결정 트리)를 고려하면 분산이 높고 편차가 적습니다. 배깅 및 랜덤 포레스트는 분산을 줄이고 예측 정확도를 높이기 위해 이러한 높은 분산 모델을 사용하고 집계합니다. 배깅 및 랜덤 포레스트는 모두 부트 스트랩 샘플링을 사용하며 "통계 학습 요소"에 설명 된대로 단일 트리에서 편향을 증가시킵니다. …

11 variance random-forest cart bias bagging

1

랜덤 포레스트 확률 론적 예측 대 다수 투표

Scikit은 왜 (1.9.2.1. 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!

10 random-forest python scikit-learn aggregation bagging

«bagging» 태그된 질문