두 그룹 사이에서 샘플을 분류하는 임의의 포리스트 기능을 테스트하려고합니다. 분류에 사용되는 54 개의 샘플과 다양한 변수가 있습니다.
내가 5 만 그루의 나무를 사용하는 경우에도 가방 외부 (OOB) 추정치가 서로 5 % 정도 차이가 나는 이유가 궁금합니다. 이것이 부트 스트랩이 도움이 될 수있는 것입니까?
두 그룹 사이에서 샘플을 분류하는 임의의 포리스트 기능을 테스트하려고합니다. 분류에 사용되는 54 개의 샘플과 다양한 변수가 있습니다.
내가 5 만 그루의 나무를 사용하는 경우에도 가방 외부 (OOB) 추정치가 서로 5 % 정도 차이가 나는 이유가 궁금합니다. 이것이 부트 스트랩이 도움이 될 수있는 것입니까?
답변:
OOB 분산에는 두 가지 원인이 있습니다. 하나는 절차 자체의 무작위성입니다. 나무 수를 늘려서 줄일 수 있습니다.
다른 분산 원은 데이터가 제한되어 있고 복잡한 세계에 산다는 돌이킬 수없는 불완전 성입니다. 나무 수를 늘리면이 문제를 해결할 수 없습니다.
또한 때로는 문제를 해결하기에 충분한 데이터가 부족합니다. 예를 들어, 두 인스턴스가 반대 레이블이지만 기능 값이 동일하다고 가정하십시오. 이 샘플 중 하나는 항상 잘못 분류됩니다. (이것은 극단적 인 예이지만, 몇 가지 문제가 수정할 수없는있는 방법을 보여줍니다 우리는 어느 하나의 벡터에 작은 섭동을 고려하여 휴식을 취할 수있다. 지금은 것입니다 일반적으로 . 쌍둥이와 동일하게 분류, 항상은 아니지만)이 문제를 해결하기 위해 두 지점을 더 구분하기 위해 추가 측정을 수집해야합니다.
돌이킬 수없는 분산은 부트 스트랩으로 고정 할 수 없습니다. 또한 임의의 포리스트는 이미 부트 스트랩되어 있습니다. 그것은 이름에 "무작위"가있는 이유의 일부입니다. (또 다른 이유는 각 분할에서 임의의 기능 하위 집합이 선택되기 때문입니다.)