«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.

1
Breiman의 임의 포리스트는 정보 획득 또는 Gini 인덱스를 사용합니까?
Breiman의 임의 포리스트 (R randomForest 패키지의 임의 포리스트)가 분할 기준 (속성 선택 기준) 정보 획득 또는 Gini 인덱스로 사용되는지 알고 싶습니다. http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 및 R의 randomForest 패키지에 대한 설명서에서 찾아 보았습니다 . 그러나 찾은 유일한 것은 Gini 인덱스를 사용할 수 있다는 것입니다. 가변 중요도 컴퓨팅.

1
자식 노드의 Gini 감소 및 Gini 불순물
임의 포리스트에 대한 Gini 기능 중요도 측정 작업을하고 있습니다. 따라서 노드 불순물의 Gini 감소를 계산해야합니다. 여기 내가 그렇게하는 방법이 있는데, 그것은 정의와 충돌을 일으키고 어딘가에 잘못해야한다고 제안합니다 ... :) 이진 트리의 경우 왼쪽 및 오른쪽 자식의 확률을 고려하여 노드 의 Gini 불순물을 계산할 수 있습니다 nnn. i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 …

7
임의의 숲이 과적 합
scikits-learn에서 Random Forest Regression을 사용하려고합니다. 문제는 테스트 오류가 매우 높다는 것입니다. train MSE, 4.64, test MSE: 252.25. 내 데이터 모양은 다음과 같습니다. (파란색 : 실제 데이터, 초록색 : 예측 됨) : 훈련에 90 %, 시험에 10 %를 사용하고 있습니다. 이것은 여러 매개 변수 조합을 시도한 후 사용중인 코드입니다. rf = …

1
연속 변수를 예측할 때 의사 결정 트리 분할을 어떻게 구현해야합니까?
실제로 Random Forests의 구현을 작성하고 있지만 질문은 의사 결정 트리 (RF와 무관)에만 국한된다고 생각합니다. 따라서 컨텍스트는 의사 결정 트리에서 노드를 만들고 예측 변수와 대상 변수가 모두 연속적이라는 것입니다. 노드에는 데이터를 두 세트로 분할하기위한 분할 임계 값이 있으며 각 세트의 평균 목표 값을 기반으로 각 서브 세트에 대한 새로운 예측을 작성합니다. …

2
랜덤 포레스트에 대해보고 할 훈련 오류는 무엇입니까?
현재 randomForestR 의 패키지를 사용하여 분류 문제에 임의의 포리스트를 적용하고 있으며 이러한 모델의 교육 오류 를보고하는 방법에 대해 잘 모르겠습니다 . 명령으로 얻은 예측을 사용하여 계산하면 내 훈련 오류가 0 %에 가깝습니다. predict(model, data=X_train) X_train훈련 데이터는 어디에 있습니까 ? 관련 질문에 대한 답변에서 , 나는 가방 부족 (OOB) 훈련 오류를 …

1
임의 포리스트에 상호 작용 용어 포함
반응 Y와 예측 변수 X1, ...., Xn이 있다고 가정합니다. X1, ...., Xn의 선형 모델을 통해 Y를 맞추려고했는데 Y와 X1, ..., Xn 사이의 진정한 관계가 선형이 아니었을 때 어떻게 든 X를 변환 한 다음 모델을 피팅하여 모델을 수정하십시오. 또한 X1, ..., XN이 다른 기능과 독립적으로 y에 영향을 미치지 않는 경우에도 상호 …

2
scikit-learn 부트 스트랩 기능이 테스트 세트를 다시 샘플링하는 이유는 무엇입니까?
모델 평가에 부트 스트랩을 사용할 때 항상 가방 외부 샘플이 테스트 세트로 직접 사용되었다고 생각했습니다. 그러나 이것은 더 이상 사용되지 않는 scikit-learnBootstrap 접근법 의 경우가 아닌 것으로 보입니다. 이것에 대한 통계적 추론은 무엇입니까? 이 기술이 백 오브 샘플을 평가하는 것보다 좋은 특정 시나리오가 있습니까?

1
랜덤 포레스트의 합법적 인 후속 알고리즘은 무엇입니까?
알고리즘을 증폭시키기 위해, 나는 그것들이 꽤 잘 진화했다고 말할 것입니다. 1995 년 초 AdaBoost가 소개 된 후 얼마 지나지 않아 그라디언트 부스팅 머신 (GBM)이었습니다. 최근, 2015 년경 XGBoost가 도입되었으며, 이는 정확하고 과적 합을 처리하며 여러 개의 Kaggle 경쟁의 승자가되었습니다. 2017 년에 Microsoft에서 LightGBM을 도입했으며 XGBoost에 비해 교육 시간이 크게 단축되었습니다. …

2
caret와 기본 randomForest 패키지를 통한 randomForest의 다른 결과
약간 혼란 스러워요 : 캐럿을 통한 훈련 된 모델의 결과는 원래 패키지의 모델과 어떻게 다를 수 있습니까? 캐럿 패키지와 함께 RandomForest의 FinalModel을 사용하여 예측 전에 사전 처리가 필요한지 여부를 읽습니다 .그러나 나는 여기서 전처리를 사용하지 않습니다. 캐럿 패키지를 사용하고 다른 mtry 값을 조정하여 다른 임의의 포리스트를 학습했습니다. > cvCtrl = …

3
랜덤 포레스트 모델에서 최신 데이터 가중치 부여
6 가지 범주를 구분하기 위해 Random Forest로 분류 모델을 훈련하고 있습니다. 내 거래 데이터에는 약 60k 이상의 관측치와 35 개의 변수가 있습니다. 다음은 대략 어떻게 보이는지에 대한 예입니다. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

1
임의 포리스트에서 LASSO 사용
다음 프로세스를 사용하여 임의의 포리스트를 만들고 싶습니다. 정보 획득을 사용하여 분할을 결정하는 임의의 데이터 및 기능 샘플에 트리를 구축 사전 정의 된 깊이를 초과하는 리프 노드를 종료하거나 분할하면 사전 정의 된 최소값보다 작은 리프 수가 생성됩니다. 각 트리에 클래스 레이블을 지정하는 대신 리프 노드에서 클래스 비율을 지정하십시오. 미리 정의 된 …

1
RandomForest-MDS 플롯 해석
나는 randomForest를 사용하여 8 가지 변수 (다른 신체 자세와 움직임)를 기반으로 6 가지 동물 행동 (예 : 서기, 걷기, 수영 등)을 분류했습니다. randomForest 패키지의 MDSplot 은이 출력을 제공하며 결과를 해석하는 데 문제가 있습니다. 나는 동일한 데이터에 대해 PCA를 수행했으며 PC1과 PC2의 모든 클래스 사이에서 이미 좋은 분리를 얻었지만 Dim1과 Dim2는 …

2
선택한 기능 수가 줄어들면 랜덤 포리스트 OOB 오류 추정치가 개선되는 이유는 무엇입니까?
1000 개의 기능을 가진 두 개의 알려진 그룹으로 분할 된 마이크로 어레이 데이터 세트에서 분류 자로 임의 포리스트 알고리즘을 적용하고 있습니다. 처음 실행 한 후에는 기능의 중요성을 살펴보고 5, 10 및 20 개의 가장 중요한 기능으로 트리 알고리즘을 다시 실행합니다. 모든 기능의 상위 10 및 20에서 오류율의 OOB 추정치는 1.19 …


3
R : gbm과 RandomForest의 부분 의존도에서 무엇을 볼 수 있습니까?
실제로, 나는 부분 의존성 플롯으로 보여줄 수있는 것을 이해했다고 생각했지만 매우 간단한 가상의 예를 사용하여 다소 당황했습니다. 다음 코드 청크에서 나는 3 개의 독립 변수 ( a , b , c )와 하나의 종속 변수 ( y )를 생성하고 c 는 y 와 밀접한 선형 관계를 나타내는 반면 a 와 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.