내 질문 : 왜 임의 포리스트 는 트리 수준이 아닌 각 트리 내의 노드 수준 에서 분할하기 위해 기능의 임의 하위 집합을 고려 합니까?
배경 : 이것은 역사 문제입니다. 주석 캄 호 출판 이 논문을 무작위로 성장하기 위해서 사용하는 기능의 일부를 선택하여 "결정 숲을"건설에 나무를 2001 년 이후 1998 년 몇 년 동안, 레오 브레이 만은 자신의 정액 랜덤 포레스트 출판 종이 기능 집합 무작위 인 것을 특징을, 각 트리가 아닌 각 트리 내의 각 노드 에서 선택됩니다 . Breiman은 Ho를 인용했지만 트리 수준에서 노드 수준의 임의 기능 선택으로의 이동에 대해서는 구체적으로 설명하지 않았습니다.
이 개발의 동기가 무엇인지 궁금합니다. 트리 수준에서 기능 하위 집합을 선택하면 원하는 트리의 상관 관계를 여전히 달성 할 수 있습니다.
내 이론 : 나는 이것이 다른 곳에서 분명히 말한 것을 보지 못했지만 무작위 하위 공간 방법이 기능의 중요성을 평가하는 측면에서 덜 효율적 인 것처럼 보입니다. 변수의 중요도 추정치를 얻기 위해 각 트리에 대해 피처가 하나씩 무작위로 순열되고, 가방 외부 관찰에 대한 오 분류 증가 또는 오류 증가가 기록됩니다. 이 랜덤 순열로 인한 오 분류 또는 오류 증가가 큰 변수는 가장 중요한 변수입니다.
랜덤 서브 스페이스 방법을 사용하면 각 트리에 대해 개의 p 피처 만 고려 합니다. 모든 p 예측 변수를 한 번이라도 고려하려면 여러 트리가 필요할 수 있습니다 . 우리가 다른 부분 집합 고려한다면 다른 한편으로는, m I 의 p가 특징 각 노드를 , 우리는 우리에게 기능의 중요성에 대한보다 강력한 견적을주고, 적은 나무 후 각 기능에 더 많은 시간을 고려할 것입니다.
지금까지 살펴본 내용 : 지금까지 Breiman의 논문과 Ho의 논문을 읽었으며 결정적인 답변을 찾지 않고 방법을 비교하기위한 광범위한 온라인 검색을 수행했습니다. • 그래도 참고 비슷한 질문을 하기 전에 질문을 받았다. 이 질문은 가능한 해결책에 대한 나의 추측 / 작업을 포함시켜 조금 더 나아갑니다. 두 접근법을 비교하는 답변, 관련 인용 또는 시뮬레이션 연구에 관심이 있습니다. 앞으로 나올 것이 없다면 두 방법을 비교하여 자체 시뮬레이션을 실행할 계획입니다.