통계 및 빅 데이터 random-forest

3

랜덤 포레스트와 매우 랜덤 화 된 트리는 랜덤 포레스트에있는 트리의 분할이 결정론적인 반면, 매우 랜덤 화 된 트리의 경우에는 랜덤이라는 점에서 차이가 있음을 이해했습니다. 현재 트리에 대해 선택된 변수에서 임의의 균일 분할 중). 그러나 나는 다양한 상황 에서이 다른 분열의 영향을 완전히 이해하지 못합니다. 편향 / 분산 측면에서 어떻게 비교합니까? …

38 machine-learning correlation references random-forest

1

수동으로 계산 된 가 새 데이터를 테스트하기 위해 randomForest () 와 일치하지 않습니다.

나는 이것이 상당히 구체적인 R질문 이라는 것을 알고 있지만, R ^ 2 설명 된 비율 분산에 대해 R2R2R^2잘못 생각하고있을 수 있습니다 . 간다 R패키지 를 사용하려고 합니다 randomForest. 훈련 데이터와 테스트 데이터가 있습니다. 임의 포리스트 모델에 적합하면이 randomForest기능을 통해 테스트 할 새 테스트 데이터를 입력 할 수 있습니다. 그런 다음이 …

38 r correlation predictive-models random-forest r-squared

6

많은 범주 형 변수로 분류 개선

200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

37 machine-learning classification categorical-data random-forest many-categories

3

임의의 숲에서 투표를 통해 "확실성 점수"를 작성 하시겠습니까?

나는 구별하는 분류 훈련을 찾고 있어요 Type A하고 Type B있는 절반에 대해, 약 10,000 개체의 합리적 큰 훈련 집합 개체를 Type A그중 절반을 Type B. 데이터 세트는 셀의 물리적 특성 (크기, 평균 반경 등)을 자세히 설명하는 100 개의 연속 기능으로 구성됩니다. 쌍별 산점도 및 밀도 플롯으로 데이터를 시각화하면 많은 특징에서 …

36 r machine-learning random-forest

3

임의 포리스트에 대한 OOB 및 혼동 행렬을 해석하는 방법은 무엇입니까?

임의의 포리스트 모델을 실행하기 위해 누군가로부터 R 스크립트를 받았습니다. 직원 데이터로 수정하고 실행했습니다. 우리는 자발적인 분리를 예측하려고합니다. 다음은 몇 가지 추가 정보입니다. 분류 모델은 0 = 직원 유지, 1 = 직원 종료, 현재 12 개의 예측 변수 만보고 있습니다. 데이터의 용어는 "불균형"입니다. 총 레코드 세트의 % 다양한 mtry 및 ntree …

35 r classification error random-forest

3

랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법

Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …

34 r machine-learning classification random-forest

3

랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?

I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

33 random-forest bootstrap outliers cart

2

임의 포리스트의 상관 관계가 높은 변수가 정확도와 기능 선택을 왜곡하지 않습니까?

내 이해에서, 상관 관계가 높은 변수는 임의 포리스트 모델에서 다중 공선 성 문제를 일으키지 않습니다 (잘못되면 수정하십시오). 그러나 다른 방법으로, 비슷한 정보를 포함하는 변수가 너무 많으면 다른 모델이 아닌이 세트에서 모델 가중치가 너무 커 집니까? 예를 들어, 동일한 예측 검정력을 가진 두 세트의 정보 (A, B)가 있습니다. 변수 , , …

32 random-forest multicollinearity ensemble

2

R의 랜덤 포레스트 분류에서 예측 변수 세트의 상대적 중요성

randomForestR의 분류 모델에 대한 변수 집합의 상대적인 중요성을 결정하고 싶습니다 .이 importance함수는 MeanDecreaseGini각 개별 예측 변수에 대한 메트릭을 제공합니다 . 집합의 각 예측 변수를 합산하는 것만 큼 간단합니까? 예를 들면 다음과 같습니다. # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) …

31 r machine-learning classification random-forest

1

임의의 숲에서 나무의 수를 조정해야합니까?

임의 포리스트 분류기의 소프트웨어 구현에는 사용자가 포리스트의 트리 수를 포함하여 알고리즘의 동작을 미세 조정할 수있는 많은 매개 변수가 있습니다. 이 요구가 같은 방식으로, 조정 될 수있는 매개 변수 , 기능의 수는 각 분할 (어떤 레오 브레이 만 통화에서 시도 )?mmmmtry

30 classification optimization random-forest hyperparameter

3

R은 텍스트 분류 작업으로 얼마나 잘 확장됩니까? [닫은]

R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다. 고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다. R 라이브러리가 문제 크기에 맞게 확장됩니까? 감사. 편집 1 : 명확히하기 …

30 r machine-learning svm text-mining random-forest

2

SVM 및 임의 포리스트에 대해 정규화를 수행해야합니까?

내 기능의 모든 차원은 다른 가치 범위를 갖습니다. 이 데이터 세트를 정규화하는 것이 필수적인지 알고 싶습니다.

29 machine-learning svm random-forest normalization

3

R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]

캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

유사도 행렬을 (유클리드) 거리 행렬로 변환

랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다. 나무 수로 행렬 정규화 그는 말한다 : 케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 …

27 random-forest distance similarities euclidean

4

임의의 숲을 피해야 할 때?

임의의 숲은 다양한 작업에서 상당히 잘 수행되는 것으로 잘 알려져 있으며 학습 방법 의 가죽 인 이라고 합니다 . 임의 포리스트 사용을 피해야하는 문제 유형이나 특정 조건이 있습니까?

25 machine-learning classification random-forest

«random-forest» 태그된 질문