임의의 포리스트는 임의의 포리스트를 생성하는 방법


20

나는 임의의 숲 전문가가 아니지만 임의의 숲의 주요 문제는 (임의의) 나무 생성이라는 것을 분명히 이해하고 있습니다. 나무가 어떻게 생성되는지 설명해 주시겠습니까? (즉, 트리 생성에 사용 된 분포는 무엇입니까?)

미리 감사드립니다!

답변:


16

RF 구현은 약간 다릅니다. Salford Systems의 독자적인 구현 이 R 의 바닐라 보다 우수하다는 것을 알고 있습니다 . 알고리즘에 대한 설명은 Friedman-Hastie-Tibshirani, 2nd ed, 3rd printing의 ESL에 있습니다 . 전체 장 (15 번째)은 RF에 관한 것으로, 실제로는 원본 용지보다 명확합니다. 트리 구성 알고리즘은 p.588에 자세히 설명되어 있습니다. 책을 온라인으로 볼 수 있기 때문에 여기에서 그것을 재생할 필요가 없습니다.


답변 주셔서 감사합니다! 이 책을 처음부터 마지막 ​​페이지까지 읽었지만 1 권이라고 생각합니다. 온라인에서이 책을 구할 수 없었습니다.
로빈 지라드

19

주요 아이디어는 나무를 무작위로 만들지 않고 자루에 넣는 절차입니다. 구체적으로, 각 트리는 원본 세트에서 교체 된 객체 샘플에 구축됩니다. 따라서 각 트리에는 보지 않은 개체가 있으므로 전체 앙상블을 이기종으로 만들어 일반화하는 것이 좋습니다.

더욱이, 나무는 각각의 분할에서 mtry무작위로 선택된 M (또는 ) 속성 만 고려 되는 방식으로 약화되고있다 . M은 일반적으로 집합의 속성 수의 제곱근입니다. 이렇게하면 가지 치기가되지 않기 때문에 나무가 과적 합 될 수 있습니다. 자세한 내용은 여기를 참조 하십시오 .

반면에, 극도의 랜덤 포레스트 (Rapid Random Forest)라고 불리는 RF의 변형이 있는데, 트리는 임의의 방식으로 만들어집니다 (스플릿 최적화는 없습니다) . 이 참조를 참조하십시오 .


죄송합니다, 부 정말 당신의 대답을 이해하지 못합니다. "세부적으로 각 트리는 원본 세트에서 교체 된 객체의 샘플을 기반으로 구축되었습니다."라는 의미는 무엇입니까?
로빈 지라드

1
이것이 자루에 넣는 작동 방식입니다. en.wikipedia.org/wiki/Bootstrap_aggregating을 확인하십시오 . 여기에 자세한 RF 참조에 대한 링크가 있습니다 (해당 주제에서는 거의 보이지 않습니다).
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.