단일 의사 결정 트리를 추가하여 온라인 임의 포리스트

RF (Random Forest)는 Decision Trees (DT)의 앙상블에 의해 생성됩니다. 배깅을 사용하여 각 DT는 다른 데이터 서브 세트에서 학습됩니다. 따라서 새로운 데이터에 대한 의사 결정을 더 추가하여 온라인 임의 포리스트를 구현하는 방법이 있습니까?

예를 들어, 10K 샘플이 있고 10 DT를 훈련시킵니다. 그런 다음 1K 샘플을 얻고 전체 RF를 다시 훈련하는 대신 새로운 DT를 추가합니다. 예측은 이제 베이지안 평균 10 + 1 DT에 의해 수행됩니다.

또한 모든 이전 데이터를 유지하면 새로운 DT를 주로 새 데이터에서 학습 할 수 있습니다. 여기서는 샘플을 선택할 확률이 이미 선택된 횟수에 따라 가중됩니다.

random-forest online-learning

— 타슈 카
소스

거기에 최근의 논문은이 주제에 ( 온라인 임의의 숲 컴퓨터 비전에서 오는). 구현 및 프레젠테이션 은 다음과 같습니다 . 10 분 안에 온라인 임의 포리스트

— 엠레
소스

언급 한 구현은 Mondrian 포리스트 ( arxiv.org/abs/1406.2673 ) 와 같은 트리 성장 전략을 따릅니다 . 따라서 나무 수는 일정하지만 분할 수는 증가합니다. 내 질문은 이전에 훈련 된 나무를 건드리지 않고 새 샘플의 나무 수를 늘리는 데 중점을 둡니다.

— tashuhka

마찬가지로 이 ? 적절한 경우 나무를 떨어 뜨리고 싶지 않습니까?

— Emre

감사합니다. 이것은 내가 찾고있는 것과 더 유사합니다. 이 경우 시변 신호의 기능 선택에 RF를 사용하십시오. 그러나 메소드의 구체적인 구현과 유효성은 확실하지 않습니다. 게시 한 것이 있는지 아십니까 (Google이 도와주지 않은)?

— tashuhka

온라인 임의 포리스트를 사용하여 개념 드리프트를 사용하여 데이터 스트림에서 기능 중요도 계산

— Emre

링크 주셔서 감사합니다! 실제로 트리 성장 전략을 사용하여 이전의 모든 트리를 업데이트한다는 것을 알 수 있으며 이전 트리를 그대로 유지하면서 새 데이터로 새로운 DT를 만드는 데 관심이 있습니다.

— tashuhka