XGBoost 의 튜토리얼 에서 각 트리가 커지면 모든 변수가 스캔되어 노드를 분할하도록 선택되고 최대 게인 분할을 가진 변수가 선택됩니다. 따라서 제 질문은 노이즈 세트를 데이터 세트에 추가하면 이러한 노이즈 변수가 변수 선택에 영향을 미칠까요 (각 트리가 성장할 때)? 내 논리는 이러한 노이즈 변수가 최대 게인 분할을 전혀 제공하지 않기 때문에 선택되지 않으므로 트리 성장에 영향을 미치지 않는다는 것입니다.
대답이 예라면 "XGBoost에 더 많은 변수가 더 좋다"는 것이 사실입니까? 훈련 시간을 고려하지 마십시오.
또한 대답이 예이면 "모델에서 중요하지 않은 변수를 필터링 할 필요가 없다"는 것이 사실입니다.
감사합니다!