«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.

3
랜덤 포레스트와 매우 랜덤 화 된 트리의 차이점
랜덤 포레스트와 매우 랜덤 화 된 트리는 랜덤 포레스트에있는 트리의 분할이 결정론적인 반면, 매우 랜덤 화 된 트리의 경우에는 랜덤이라는 점에서 차이가 있음을 이해했습니다. 현재 트리에 대해 선택된 변수에서 임의의 균일 분할 중). 그러나 나는 다양한 상황 에서이 다른 분열의 영향을 완전히 이해하지 못합니다. 편향 / 분산 측면에서 어떻게 비교합니까? …

1
수동으로 계산 된 가 새 데이터를 테스트하기 위해 randomForest () 와 일치하지 않습니다.
나는 이것이 상당히 구체적인 R질문 이라는 것을 알고 있지만, R ^ 2 설명 된 비율 분산에 대해 R2R2R^2잘못 생각하고있을 수 있습니다 . 간다 R패키지 를 사용하려고 합니다 randomForest. 훈련 데이터와 테스트 데이터가 있습니다. 임의 포리스트 모델에 적합하면이 randomForest기능을 통해 테스트 할 새 테스트 데이터를 입력 할 수 있습니다. 그런 다음이 …

6
많은 범주 형 변수로 분류 개선
200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

3
임의의 숲에서 투표를 통해 "확실성 점수"를 작성 하시겠습니까?
나는 구별하는 분류 훈련을 찾고 있어요 Type A하고 Type B있는 절반에 대해, 약 10,000 개체의 합리적 큰 훈련 집합 개체를 Type A그중 절반을 Type B. 데이터 세트는 셀의 물리적 특성 (크기, 평균 반경 등)을 자세히 설명하는 100 개의 연속 기능으로 구성됩니다. 쌍별 산점도 및 밀도 플롯으로 데이터를 시각화하면 많은 특징에서 …

3
임의 포리스트에 대한 OOB 및 혼동 행렬을 해석하는 방법은 무엇입니까?
임의의 포리스트 모델을 실행하기 위해 누군가로부터 R 스크립트를 받았습니다. 직원 데이터로 수정하고 실행했습니다. 우리는 자발적인 분리를 예측하려고합니다. 다음은 몇 가지 추가 정보입니다. 분류 모델은 0 = 직원 유지, 1 = 직원 종료, 현재 12 개의 예측 변수 만보고 있습니다. 데이터의 용어는 "불균형"입니다. 총 레코드 세트의 % 다양한 mtry 및 ntree …

3
랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법
Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …

3
랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?
I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

2
임의 포리스트의 상관 관계가 높은 변수가 정확도와 기능 선택을 왜곡하지 않습니까?
내 이해에서, 상관 관계가 높은 변수는 임의 포리스트 모델에서 다중 공선 성 문제를 일으키지 않습니다 (잘못되면 수정하십시오). 그러나 다른 방법으로, 비슷한 정보를 포함하는 변수가 너무 많으면 다른 모델이 아닌이 세트에서 모델 가중치가 너무 커 집니까? 예를 들어, 동일한 예측 검정력을 가진 두 세트의 정보 (A, B)가 있습니다. 변수 , , …

2
R의 랜덤 포레스트 분류에서 예측 변수 세트의 상대적 중요성
randomForestR의 분류 모델에 대한 변수 집합의 상대적인 중요성을 결정하고 싶습니다 .이 importance함수는 MeanDecreaseGini각 개별 예측 변수에 대한 메트릭을 제공합니다 . 집합의 각 예측 변수를 합산하는 것만 큼 간단합니까? 예를 들면 다음과 같습니다. # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) …


3
R은 텍스트 분류 작업으로 얼마나 잘 확장됩니까? [닫은]
R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다. 고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다. R 라이브러리가 문제 크기에 맞게 확장됩니까? 감사. 편집 1 : 명확히하기 …


3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

1
유사도 행렬을 (유클리드) 거리 행렬로 변환
랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다. 나무 수로 행렬 정규화 그는 말한다 : 케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.