Breiman의 임의 포리스트는 정보 획득 또는 Gini 인덱스를 사용합니까?

Breiman의 임의 포리스트 (R randomForest 패키지의 임의 포리스트)가 분할 기준 (속성 선택 기준) 정보 획득 또는 Gini 인덱스로 사용되는지 알고 싶습니다. http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 및 R의 randomForest 패키지에 대한 설명서에서 찾아 보았습니다 . 그러나 찾은 유일한 것은 Gini 인덱스를 사용할 수 있다는 것입니다. 가변 중요도 컴퓨팅.

r random-forest entropy gini

— 어떤 사람
소스

randomForest 패키지의 임의 포리스트 트리가 이진인지 궁금합니다.

— 누군가

A. Liaw의 R에있는 randomForest 패키지는 c 코드 (번역 된) 일부 포트란 코드와 R 래퍼 코드가 혼합 된 원본 코드의 포트입니다. 중단 점과 mtry 변수에서 전체적으로 최상의 분할을 결정하기 위해 코드는 gini-gain과 유사한 점수 함수를 사용합니다.

$GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2})$

여기서 소정의 기능이고, 분할이 수행되는 한 노드이며, 및 분할에 의해 생성 된 두 개의 자식 노드이다 . 노드의 요소 수입니다. $X$ $N$ $N_{1}$ $N_{2}$ $N$ $\lvert . \rvert$

그리고 . 여기서 는 노드의 범주 수입니다. $Gini(N)=1-\sum_{k=1}^{K}p_{k}^2$ $K$

그러나 적용된 스코어링 기능은 정확히 동일하지는 않지만 계산적으로 효율적인 버전입니다. 및 | N | 비교 된 모든 분할에 대해 일정하므로 생략됩니다. $Gini(N)$

또한 node (1)의 제곱 유병률의 합이 $\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2}) \propto |N_2| Gini(N_{2}) = |N_2| (1-\sum_{k=1}^{K}p_{k}^2 ) = |N_2| \sum \frac{nclass_{2,k}^2}{|N_2|^2}$

여기서 보조 노드 1. 공지의 대상 클래스 k의 클래스 카운트 노미 네이터와 분모 모두에 배치됩니다. $nclass_{1,k}$ $|N_2|$

사소한 일정 제거 방정식에서 출발하는 가장 분할 결정은 노드가 제곱 클래스 유병률의 가중 합계의 크기를 최대화하기 위해되도록을 ... $1-$

점수 = $|N_1| \sum_{k=1}^{K}p_{1,k}^2 + |N_2| \sum_{k=1}^{K}p_{2,k}^2 = |N_1|\sum_{k=1}^{K}\frac{nclass_{1,k}^2}{|N_1|^2} + |N_2|\sum_{k=1}^{K}\frac{nclass_{2,k}^2}{|N_2|^2}$ $= \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-1} + \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-2}$ $= nominator_1/denominator_1 + nominator_2/denominator_2$

The implementation also allows for classwise up/down weighting of samples. Also very important when the implementation update this modified gini-gain, moving a single sample from one node to the other is very efficient. The sample can be substracted from nominators/denominators of one node and added to the others. I wrote a prototype-RF some months ago, ignorantly recomputing from scratch gini-gain for every break-point and that was slower :)

If several splits scores are best, a random winner is picked.

This answer was based on inspecting source file "randomForest.x.x.tar.gz/src/classTree.c" line 209-250

— Soren Havelund Welling
소스