답변:
RF 구현은 약간 다릅니다. Salford Systems의 독자적인 구현 이 R 의 바닐라 보다 우수하다는 것을 알고 있습니다 . 알고리즘에 대한 설명은 Friedman-Hastie-Tibshirani, 2nd ed, 3rd printing의 ESL에 있습니다 . 전체 장 (15 번째)은 RF에 관한 것으로, 실제로는 원본 용지보다 명확합니다. 트리 구성 알고리즘은 p.588에 자세히 설명되어 있습니다. 책을 온라인으로 볼 수 있기 때문에 여기에서 그것을 재생할 필요가 없습니다.
주요 아이디어는 나무를 무작위로 만들지 않고 자루에 넣는 절차입니다. 구체적으로, 각 트리는 원본 세트에서 교체 된 객체 샘플에 구축됩니다. 따라서 각 트리에는 보지 않은 개체가 있으므로 전체 앙상블을 이기종으로 만들어 일반화하는 것이 좋습니다.
더욱이, 나무는 각각의 분할에서 mtry
무작위로 선택된 M (또는 ) 속성 만 고려 되는 방식으로 약화되고있다 . M은 일반적으로 집합의 속성 수의 제곱근입니다. 이렇게하면 가지 치기가되지 않기 때문에 나무가 과적 합 될 수 있습니다. 자세한 내용은 여기를 참조 하십시오 .
반면에, 극도의 랜덤 포레스트 (Rapid Random Forest)라고 불리는 RF의 변형이 있는데, 트리는 임의의 방식으로 만들어집니다 (스플릿 최적화는 없습니다) . 이 참조를 참조하십시오 .