완전히 성장한 의사 결정 트리 (즉, 정리되지 않은 의사 결정 트리)를 고려하면 분산이 높고 편차가 적습니다.
배깅 및 랜덤 포레스트는 분산을 줄이고 예측 정확도를 높이기 위해 이러한 높은 분산 모델을 사용하고 집계합니다. 배깅 및 랜덤 포레스트는 모두 부트 스트랩 샘플링을 사용하며 "통계 학습 요소"에 설명 된대로 단일 트리에서 편향을 증가시킵니다.
또한 랜덤 포레스트 방법은 각 노드에서 허용되는 변수의 분할을 제한하므로 단일 랜덤 포레스트 트리에 대한 바이어스가 훨씬 증가합니다.
따라서 배깅 및 랜덤 포레스트에서 단일 트리의 바이어스 증가가 분산 감소를 "과도하게 넘치지"않으면 예측 정확도 만 증가합니다.
이것은 다음 두 가지 질문으로 이어집니다. 1) 부트 스트랩 샘플링을 사용하면 (거의 항상) 부트 스트랩 샘플에서 동일한 관찰 결과를 얻을 수 있다는 것을 알고 있습니다. 그러나 이것이 왜 Bagging / Random Forests에서 개별 나무의 치우침이 증가하는 이유는 무엇입니까? 2) 또한, 각 분할에서 분할 할 수있는 변수에 대한 제한이 랜덤 포리스트의 개별 트리에서 더 높은 편향을 유발하는 이유는 무엇입니까?