답변:
당신이 말한 것처럼이 문제에 대해 많은 논의가 있었고, 완전히 이해하지 못했다는 것을 인정해야 할 상당히 무거운 이론이 있습니다. 필자의 실제 경험에서 AdaBoost는 과적 합에 상당히 강하고 LPBoost (Linear Programming Boosting)는 훨씬 더 강력합니다 (객관적인 기능에는 용량 제어의 한 형태 인 약한 학습자의 희소 한 조합이 필요하기 때문에). 영향을 미치는 주요 요인은 다음과 같습니다.
"약한"학습자의 "강점": 의사 결정 그루터기 (1 수준 의사 결정 트리)와 같은 매우 간단한 약한 학습자를 사용하는 경우 알고리즘이 과적 합되기 훨씬 쉽습니다. 더 복잡한 약한 학습자 (예 : 의사 결정 트리 또는 초평면)를 사용하려고 할 때마다 과적 합이 훨씬 빠르게 발생한다는 것을 알았습니다.
데이터의 소음 수준 : AdaBoost는 특히 노이즈가 많은 데이터 세트에 과적 합하는 경향이 있습니다. 이 설정에서는 정규화 된 양식 (RegBoost, AdaBoostReg, LPBoost, QPBoost)이 선호됩니다.
데이터의 차원 : 우리는 일반적으로 고차원 공간 ( "차원의 저주")에서 과적 합을 경험하고 AdaBoost는 그 자체로 어려움을 겪는 분류기의 선형 조합이기 때문에 그 점에서도 어려움을 겪을 수 있음을 알고 있습니다. 문제에서. 다른 분류 자만큼 쉬운 지 여부를 판단하기가 어렵습니다.
물론 유효성 검사 세트 또는 폴드 교차 검증과 같은 휴리스틱 메서드 를 사용하여 다른 분류기와 마찬가지로 중지 매개 변수 (또는 다른 변형의 다른 매개 변수)를 설정할 수 있습니다.
나는 tdc 의견에 언급 된 대부분의 요점에 동의합니다. 그러나 몇 가지를 추가하고 수정해야합니다.
caret
패키지를 사용하여 adaboost를 교차 검증 할 수 있으며 일반적으로 일반적으로 잘 작동한다는 것을 알았습니다.