포장 된 트리 / 임의의 포리스트 트리가 단일 의사 결정 트리보다 높은 편향을 갖는 이유는 무엇입니까?


11

완전히 성장한 의사 결정 트리 (즉, 정리되지 않은 의사 결정 트리)를 고려하면 분산이 높고 편차가 적습니다.

배깅 및 랜덤 포레스트는 분산을 줄이고 예측 정확도를 높이기 위해 이러한 높은 분산 모델을 사용하고 집계합니다. 배깅 및 랜덤 포레스트는 모두 부트 스트랩 샘플링을 사용하며 "통계 학습 요소"에 설명 된대로 단일 트리에서 편향을 증가시킵니다.

또한 랜덤 포레스트 방법은 각 노드에서 허용되는 변수의 분할을 제한하므로 단일 랜덤 포레스트 트리에 대한 바이어스가 훨씬 증가합니다.

따라서 배깅 및 랜덤 포레스트에서 단일 트리의 바이어스 증가가 분산 감소를 "과도하게 넘치지"않으면 예측 정확도 만 증가합니다.

이것은 다음 두 가지 질문으로 이어집니다. 1) 부트 스트랩 샘플링을 사용하면 (거의 항상) 부트 스트랩 샘플에서 동일한 관찰 결과를 얻을 수 있다는 것을 알고 있습니다. 그러나 이것이 왜 Bagging / Random Forests에서 개별 나무의 치우침이 증가하는 이유는 무엇입니까? 2) 또한, 각 분할에서 분할 할 수있는 변수에 대한 제한이 랜덤 포리스트의 개별 트리에서 더 높은 편향을 유발하는 이유는 무엇입니까?

답변:


5

나는 Kunlun의 1)에 대한 대답을 받아 들일 것이지만,이 사건을 끝내기 위해 논문에서 도달 한 두 가지 질문에 대한 결론을 제시 할 것입니다 (이 둘은 내 상사에 의해 수락되었습니다).

1) 데이터가 많을수록 더 나은 모델이 생성되고 전체 훈련 데이터의 일부만 사용하여 모델 (부트 스트랩)을 사용하므로 각 트리에서 더 높은 편향이 발생합니다 (Kunlun의 답변에서 복사)

2) Random Forests 알고리즘에서는 각 분할에서 분할 할 변수의 수를 제한합니다. 즉, 데이터를 설명 할 변수의 수를 제한합니다. 다시 말하지만, 각 트리에서 더 높은 편향이 발생합니다.

결론 : 두 상황 모두 모집단을 설명하는 능력을 제한하는 문제입니다. 먼저 관측 수를 제한 한 다음 각 분할에서 분할 할 변수의 수를 제한합니다. 두 제한 사항은 각 트리에서 편향이 높아지지만 종종 모델의 분산 감소가 각 트리의 편향 증가보다 우월하기 때문에 Bagging and Random Forests는 단일 의사 결정 트리보다 더 나은 모델을 생성하는 경향이 있습니다.


-1

귀하의 질문은 매우 간단합니다. 1) 전체 훈련 데이터의 일부만 사용하여 모델 (부트 스트랩)을 훈련시키기 때문에 더 많은 데이터가 더 나은 모델을 생성합니다. 2) 더 많은 분할은 더 깊은 나무 또는 더 순수한 노드를 의미합니다. 이것은 일반적으로 높은 분산과 낮은 바이어스로 이어집니다. 분할을 제한하면 분산이 낮고 바이어스가 높아집니다.


4
각 부트 스트랩 샘플이 똑같이 가능하고 바이어스는 평균 모델의 동작에 관한 것이므로 1)에 대한 인수를 구입하지는 않습니다. 그것보다 미묘해야 할 것 같습니다. 나는 또한 2) 질문을 해결하지 않는다고 생각합니다. 포스터는 "얕은 나무 성장"에서와 같이 "제한된 분할"을 의미하지 않습니다.
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.