나는 임의의 숲을 구성하는 잘 알고있어하는 방법은있는 그대로 다음과 같습니다 (에서 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )
숲에서 나무를 만들려면 다음을 수행하십시오.
- N 크기의 샘플을 부트 스트랩합니다. 여기서 N은 트레이닝 세트의 크기입니다. 이 부트 스트랩 샘플을이 트리의 학습 세트로 사용하십시오.
- 트리의 각 노드에서 무작위로 M 피처의 m을 선택하십시오. 분할 할 m 기능 중 최상의 것을 선택하십시오. (여기서 m은 랜덤 포레스트의 매개 변수입니다)
- 각 나무를 최대한 크게 자릅니다. 즉 가지 치기가 없습니다.
이 알고리즘은 절차 적 수준에서 의미가 있고 확실히 좋은 결과를 낳지 만, 이론적 동기가 1, 2, 3 단계에 어떤 영향을 미치는지 확실하지 않습니다. 잘 작동합니까?
예를 들어 1 단계를 수행해야하는 이유는 무엇입니까? 일반적인 분산 감소 목적으로 부트 스트랩하는 것처럼 보이지 않습니다.