임의의 포리스트는 배깅 개념을 따르는 의사 결정 트리 모음입니다. 한 의사 결정 트리에서 다음 의사 결정 트리로 이동할 때 마지막 의사 결정 트리에서 학습 한 정보는 다음 의사 결정으로 어떻게 넘어 갑니까? 내 이해에 따라 모든 의사 결정 트리에 대해 생성 된 다음 다음 의사 결정 트리가 잘못 분류 된 …
현재 이진 분류 문제로 MATLAB에서 RF 도구 상자를 사용하고 있습니다. 데이터 세트 : 50000 개 샘플 및 250 개 이상의 기능 그렇다면 나무를 키우기 위해 각 분할에서 나무의 수와 무작위로 선택한 기능은 무엇입니까? 다른 매개 변수가 결과에 큰 영향을 줄 수 있습니까?
대부분 범주 형 기능에 이진 분류 문제가 있다고 가정합니다. 비선형 모델 (예 : XGBoost 또는 Random Forests)을 사용하여 학습합니다. 여전히 다중 공선성에 대해 걱정해야합니까? 왜? 위의 답변이 사실이라면, 이러한 유형의 비선형 모델을 사용하고 있다는 점을 고려하여 어떻게 싸워야합니까?
탁월한 통계 모델링 을 읽음으로써 두 문화 (Breiman 2001) 는 전통적인 통계 모델 (예 : 선형 회귀)과 기계 학습 알고리즘 (예 : 배깅, 랜덤 포레스트, 부스트 트리 ...)의 모든 차이점을 파악할 수 있습니다. Breiman은 데이터 모델 (모수)이 통계를 통해 알려진 자연스럽고 모방 된 공식 모델에 의해 관측이 생성된다는 가정에 근거하기 …
나는 기계 학습, CART 기술 등을 처음 접했고, 순진한 것이 너무 명확하지 않기를 바랍니다. Random Forest는 다단계 / 계층 적 데이터 구조를 어떻게 처리합니까 (예 : 교차 수준 상호 작용이 필요한 경우)? 즉, 여러 계층 적 수준에서 분석 단위가 포함 된 데이터 세트 ( 예 : 학교 내에 중첩 된 …
여러 속성을 기반으로 가격을 예측하기 위해 Random Forests를 사용하여 회귀를 수행하고 있습니다. 코드는 Scikit-learn을 사용하여 Python으로 작성됩니다. 회귀 모형에 맞도록 변수를 사용 하기 전에 exp/ log를 사용하여 변수를 변환해야하는지 어떻게 결정 합니까? Random Forest와 같은 Ensemble 방식을 사용할 때 필요합니까?
R의 임의 포리스트 모델을 사용하여 예측하려고합니다. 그러나 테스트 세트의 일부 요소가 훈련 세트와 다른 값을 가지므로 오류가 발생합니다. 예를 들어, 테스트 세트에는 학습 세트에 표시되지 않은 Cat_2값 34, 68, 76등 이 있습니다 . 불행히도, 테스트 세트를 제어 할 수 없습니다 ... 나는 그대로 사용해야합니다. 내 유일한 해결 방법은을 사용하여 문제가되는 …
randomForest를 가지고 놀고 있는데 일반적으로 sampSize를 늘리면 성능이 향상됩니다. 최적의 sampSize가 무엇인지 제안하는 규칙 / 공식 / 등이 있습니까? 아니면 시행 착오입니까? 나는 그것을 표현하는 또 다른 방법을 추측한다; 너무 작은 sampSize 또는 너무 큰 (과적 합) 위험은 무엇입니까? 이 질문은 randomForest패키지 에서 임의 포리스트의 R 구현을 나타 냅니다. 이 …
내 질문 : 왜 임의 포리스트 는 트리 수준이 아닌 각 트리 내의 노드 수준 에서 분할하기 위해 기능의 임의 하위 집합을 고려 합니까? 배경 : 이것은 역사 문제입니다. 주석 캄 호 출판 이 논문을 무작위로 성장하기 위해서 사용하는 기능의 일부를 선택하여 "결정 숲을"건설에 나무를 2001 년 이후 1998 년 …