«boosting» 태그된 질문

약한 예측 모델을 강력한 예측 모델로 결합하는 알고리즘 군. 가장 일반적인 접근 방식을 그라디언트 부스팅이라고하며 가장 일반적으로 사용되는 약한 모델은 분류 / 회귀 트리입니다.

2
신경망 강화
최근에 나는 adaboost, gradient boost와 같은 boosting algorithm을 배우고 있었고 가장 많이 사용되는 약한 학습자가 나무라는 사실을 알고 있습니다. 신경망을 기본 학습자로 사용하기위한 최근의 성공적인 사례 (논문 또는 기사를 의미 함)가 있는지 알고 싶습니다.

4
“반 감독 학습”– 이것이 과적입니까?
Kaggle 경쟁에서 승리 한 솔루션에 대한 보고서를 읽고있었습니다 ( Malware Classification ). 보고서는이 포럼 게시물 에서 찾을 수 있습니다 . 문제는 열차 세트에 10000 개의 요소, 테스트 세트에 10000 개의 요소가있는 분류 문제 (9 개의 클래스, 메트릭은 로그 손실)였습니다. 경쟁하는 동안 모델은 테스트 세트의 30 %에 대해 평가되었습니다. 또 다른 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
AdaBoost가 과적 합하는 경향이 적습니까?
나는 AdaBoost (또는 다른 부스팅 기술)가 다른 학습 방법에 비해 과적 합하기 쉬운 지 아닌지에 대한 다양한 (겉보기에) 모순되는 진술을 읽었습니다. 둘 중 하나를 믿을만한 충분한 이유가 있습니까? 그것이 의존한다면, 그것은 무엇에 달려 있습니까? AdaBoost가 과적 합하는 경향이 적은 이유는 무엇입니까?

3
XGBoost vs Python Sklearn 그라디언트 부스트 트리
XGBoost가 어떻게 작동하는지 이해하려고합니다. Python sklearn에서 그라디언트 향상 트리가 어떻게 작동하는지 이미 알고 있습니다. 분명하지 않은 것은 XGBoost가 동일한 방식으로 작동하지만 더 빠르거나 파이썬 구현과 근본적인 차이점이 있는지입니다. 이 논문을 읽을 때 http://learningsys.org/papers/LearningSys_2015_paper_32.pdf XGboost에서 나온 최종 결과가 Python 구현에서와 같은 것처럼 보이지만 주요 차이점은 XGboost가 각 회귀 트리에서 만들 수있는 …

1
xgboost의 초과 적합에 대한 토론
내 설정은 다음과 같습니다. "Applied Predictive Modelling"의 지침을 따르고 있습니다. 따라서 상관 된 기능을 필터링하고 다음과 같이 끝납니다. 훈련 세트의 4900 데이터 포인트와 테스트 세트의 1600 데이터 포인트 26 개의 기능이 있으며 대상은 연속 변수입니다. caret패키지를 사용하여 모델을 훈련시키기 위해 5 배 교차 검증을 적용 합니다. MARS 모델을 적용하면 훈련 …

3
의사 결정이 선형 모델입니까?
의사 결정 그루터기는 분할이 하나 뿐인 의사 결정 트리입니다. 조각 별 함수로 작성할 수도 있습니다. 예를 들어, 가정 벡터이며, 첫 번째 요소 인 회귀 환경에서, 일부 결정이 될 수 루터x 1 xxxxx1x1x_1xxx f(x)={35x1≤2x1>2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} 그러나 선형 모델입니까? 로 쓸 …

2
강화 : 왜 학습률이 정규화 매개 변수라고 불리는가?
그라디언트 부스팅 의 학습 속도 매개 변수 ( )는 시리즈에 추가 된 각각의 새 기본 모델 (일반적으로 얕은 나무)의 기여도를 줄입니다. 테스트 세트 정확도를 크게 향상시키는 것으로 나타 났으며, 이는 작은 단계에서와 같이 이해할 수있는 최소 손실 기능을보다 정확하게 얻을 수 있습니다. ν∈ [ 0 , 1 ]ν∈[0,1]\nu \in [0,1] …

1
교차 검증 (CV)에 기반한 예측 구간
교과서와 유튜브 강연에서 나는 부스팅과 같은 반복 모델에 대해 많은 것을 배웠지 만 예측 간격을 도출하는 것에 대해서는 아무것도 보지 못했습니다. 교차 검증은 다음에 사용됩니다. 모델 선택 : 다른 모델을 사용 해보고 가장 적합한 모델을 선택하십시오. 부스팅의 경우 CV를 사용하여 튜닝 파라미터를 선택하십시오. 모델 평가 : 선택한 모델의 성능 추정 …

1
멀티 클래스 부스트 분류기 보정
나는 Alexandru Niculescu-Mizil과 Rich Caruana의 논문 " 부스트에서 교정 된 확률 얻기 " 와이 글 에서 토론을 읽었다 . 그러나 여전히 멀티 클래스 부스팅 분류기 (의사 결정 그루터기가있는 부스트)의 출력을 보정하기 위해 물류 또는 Platt의 스케일링 을 이해하고 구현하는 데 여전히 어려움이 있습니다. 나는 일반화 된 선형 모델에 어느 정도 …

3
앙상블 분류기를 언제 사용하지 않아야합니까?
일반적으로 샘플 외부 클래스 멤버십을 정확하게 예측하는 것이 목표 인 분류 문제에서 앙상블 분류기를 사용 하지 않아야 하는 시점은 언제 입니까? 이 질문은 항상 앙상블 학습을 사용하지 않는 이유 와 밀접한 관련이 있습니다. . 이 질문은 왜 앙상블을 항상 사용하지 않는지 묻습니다. 나는 앙상블이 아닌 것 보다 앙상블이 더 나쁜 …

1
나무 부스팅 및 배깅 (XGBoost, LightGBM)
나무 를 꾸리 거나 부스팅 하는 아이디어에 대한 많은 블로그 게시물, YouTube 비디오 등이 있습니다. 내 일반적인 이해는 각각에 대한 의사 코드는 다음과 같습니다. 포장 : 표본의 x %와 특징의 y %의 N 개의 랜덤 표본 추출 각 N에 모델 (예 : 의사 결정 트리)을 적합 각 N으로 예측 최종 …

2
그라디언트 부스팅을 사용한 분류 : [0,1]의 예측 유지 방법
질문 그라디언트 부스팅을 사용하여 이진 분류를 수행 할 때 예측이 간격 내에 유지되는 방식을 이해하기 위해 고심 하고 있습니다.[0,1][0,1][0,1] 이진 분류 문제에 대해 작업 목적 함수가 로그 손실 . 여기서 대상 변수 이고 는 현재 모델입니다.y ∈ { 0 , 1 } H−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))yyy∈{0,1}∈{0,1}\in \{0,1\}HHH 우리의 …


2
GBM 분류에 불균형 한 수업 규모가 있습니까?
감독 이진 분류 문제를 처리하고 있습니다. GBM 패키지를 사용하여 개인을 감염되지 않은 / 감염된 것으로 분류하고 싶습니다. 감염된 사람보다 15 배나 더 감염되지 않았습니다. 클래스 크기가 불균형 한 경우 GBM 모델이 어려움을 겪고 있는지 궁금합니다. 이 질문에 대한 답변이 없습니다. 감염되지 않은 개인에게 1의 무게를, 감염된 사람에 15의 무게를 할당하여 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.