랜덤 포리스트 결과가 왜 이렇게 가변적입니까?


10

두 그룹 사이에서 샘플을 분류하는 임의의 포리스트 기능을 테스트하려고합니다. 분류에 사용되는 54 개의 샘플과 다양한 변수가 있습니다.

내가 5 만 그루의 나무를 사용하는 경우에도 가방 외부 (OOB) 추정치가 서로 5 % 정도 차이가 나는 이유가 궁금합니다. 이것이 부트 스트랩이 도움이 될 수있는 것입니까?


6
샘플이 거의 없습니다. 50k 나무는 너무 적은 샘플로 이해가되지 않습니다. 변형은 대부분 하나의 샘플이 실행간에 잘못 분류 될 가능성이 높습니다.
ThiS

@ThiS 저는 나무 수를 늘리면 분산의 양이 줄어들 것이라고 생각했습니다. 효과적으로 제로로 줄이거 나 가장 정확한 것을 아는 방법이 있습니까?
Sethzard

답변:


12

OOB 분산에는 두 가지 원인이 있습니다. 하나는 절차 자체의 무작위성입니다. 나무 수를 늘려서 줄일 수 있습니다.

다른 분산 원은 데이터가 제한되어 있고 복잡한 세계에 산다는 돌이킬 수없는 불완전 성입니다. 나무 수를 늘리면이 문제를 해결할 수 없습니다.

또한 때로는 문제를 해결하기에 충분한 데이터가 부족합니다. 예를 들어, 두 인스턴스가 반대 레이블이지만 기능 값이 동일하다고 가정하십시오. 이 샘플 중 하나는 항상 잘못 분류됩니다. (이것은 극단적 인 예이지만, 몇 가지 문제가 수정할 수없는있는 방법을 보여줍니다 우리는 어느 하나의 벡터에 작은 섭동을 고려하여 휴식을 취할 수있다. 지금은 것입니다 일반적으로 . 쌍둥이와 동일하게 분류, 항상은 아니지만)이 문제를 해결하기 위해 두 지점을 더 구분하기 위해 추가 측정을 수집해야합니다.

(와이=1|엑스)엑스¯엑스¯엑스¯(μ,σ2)μσ2엑스¯σ2=0

돌이킬 수없는 분산은 부트 스트랩으로 고정 할 수 없습니다. 또한 임의의 포리스트는 이미 부트 스트랩되어 있습니다. 그것은 이름에 "무작위"가있는 이유의 일부입니다. (또 다른 이유는 각 분할에서 임의의 기능 하위 집합이 선택되기 때문입니다.)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.