랜덤 포레스트에서 각 트리는 고유 한 부 스트랩 데이터 샘플에서 병렬로 성장합니다. 각 부 스트랩 샘플에는 고유 한 관측치의 약 63 %가 포함될 것으로 예상되므로, 관측치의 약 37 %가 트리 테스트에 사용될 수 있습니다.
이제 확률 적 그라디언트 부스팅에서는 RF와 비슷한 추정치가있는 것 같습니다.
bag.fraction이 0보다 큰 값 (0.5 권장)으로 설정되면 gbm은 예측 성능 향상에 대한 백 밖 추정을 계산합니다. 다음 회귀 트리를 선택하는 데 사용되지 않은 관측치에 대한 이탈 감소를 평가합니다.
출처 : Ridgeway (2007) , 섹션 3.3 (8 페이지).
작동 방식 / 유효성을 이해하는 데 어려움이 있습니다. 시퀀스에 트리를 추가한다고 가정 해보십시오. 원래 데이터 세트의 임의 하위 샘플에서이 트리를 확장하고 있습니다. 이 단일 트리를 키우기 위해 사용되지 않은 관측치에서 테스트 할 수있었습니다. 동의했다. 그러나 Boosting은 순차적 이기 때문에 지금까지 구축 된 전체 트리 시퀀스 를 사용하여 왼쪽 관측에 대한 예측을 제공합니다. 그리고 이전의 많은 나무들이 이미 이러한 관찰을 보았을 가능성이 높습니다. 따라서 모델은 RF와 같이 보이지 않는 관측에 대해 각 라운드에서 실제로 테스트되지 않습니다.
그렇다면 이것을 "가방 밖"오류 추정치라고하는 방법은 무엇입니까? 저에게, 관측 결과가 이미 보여진 이후로 어떤 가방에서 "나온"것처럼 보이지 않습니까?