«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.

2
의사 결정 트리의 범주 형 기능을 코딩하는 모범 사례?
선형 회귀 분석을 위해 범주 형 피쳐를 코딩 할 때 규칙이 있습니다. 더미의 수는 공선 성을 피하기 위해 총 레벨 수보다 하나 작아야합니다. 의사 결정 트리에 대해 비슷한 규칙이 있습니까 (태그, 부스트)? 파이썬의 표준 연습은 n레벨을 n인형 (sklearns ' OneHotEncoder또는 Pandas' pd.get_dummies) 으로 확장 하여 저에게 최적이 아닌 것처럼 보이기 …

1
랜덤 포레스트 부분 의존도 플롯에서 y 축의 의미
나는 RandomForestR 패키지를 사용하고 있으며 부분 의존도에서 Y 축의 값을 해석하는 방법에 혼란스러워합니다. 도움말 문서에 따르면 줄거리는 "클래스 확률에 대한 변수의 한계 효과에 대한 그래픽 묘사"입니다. 그러나 나는 y 축이 정확히 무엇을 나타내는 지 여전히 혼란 스럽습니다. 특히 음수 값은 무엇을 의미합니까? 클래스를 정확하게 예측하는 데 부정적인 영향을 미친다는 것은 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
기계 학습을 사용하여 재무 시계열을 예측하는 첫 단계 학습
기계 학습을 사용하여 미래의 재무 시계열 1 단계 이상을 예측하는 방법을 파악하려고합니다. 설명 데이터가 포함 된 재무 시계열이 있으며 모델을 구성한 다음 모델을 사용하여 n 단계를 미리 예측하고 싶습니다. 내가 지금까지 한 일은 : getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range …


2
랜덤 포레스트 : 변수가 중요하다는 것을 알고 있다면
임의의 포리스트가 무작위로 mtry 변수를 선택하여 각 의사 결정 트리를 작성한다는 것을 이해합니다. 따라서 mtry = ncol / 3 인 경우 각 변수는 평균적으로 나무의 1/3에서 사용됩니다. 그리고 나무의 2/3는 그것을 사용하지 않을 것입니다. 그러나 단일 변수가 매우 중요하다는 것을 알고 있다면 각 트리에서이 변수를 선택할 확률을 수동으로 높이는 것이 …

2
randomForest는 분류 대신 회귀를 선택합니다
R 에서 randomForest 패키지를 사용하고 홍채 데이터를 사용하는 경우 생성 된 임의 포리스트는 분류이지만 약 700 개의 기능이있는 데이터 세트 (28x28 픽셀 이미지의 각 픽셀)를 사용하면 레이블 열의 이름이 지정됩니다 label, randomForest생성 된 회귀입니다. 다음 줄을 사용하고 있습니다. rf <- randomForest(label ~ ., data=train) 분류 대신 회귀 분석이 어떻게 사용됩니까? …
12 r  random-forest 

2
PCA 및 임의 포리스트
최근의 Kaggle 경쟁을 위해, 나는 (수동으로) 내 훈련 세트에 대해 10 개의 추가 기능을 정의했으며,이 기능은 임의의 숲 분류기를 훈련시키는 데 사용됩니다. 새로운 기능으로 데이터 세트에서 PCA를 실행하여 서로 비교하는 방법을 확인하기로 결정했습니다. 분산의 ~ 98 %가 첫 번째 성분 (첫 번째 고유 벡터)에 의해 전달됨을 발견했습니다. 그런 다음 분류기를 …


1
오 탐지 횟수를 줄이는 방법은 무엇입니까?
보행자 감지 라는 작업을 해결하려고 노력하고 있으며 사람, 부정-배경이라는 두 가지 범주의 긍정적 인 이진 clasifer를 훈련시킵니다. 데이터 세트가 있습니다. 긍정 수 = 3752 음수 = 3800 train \ test split 80 \ 20 % 및 RandomForestClassifier 양식 scikit-learn 을 매개 변수와 함께 사용합니다. RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 점수를 얻습니다 …

1
캐럿 패키지와 함께 RandomForest의 FinalModel을 사용하여 예측 전에 사전 처리가 필요합니까?
10x10CV로 randomForest 객체를 훈련하기 위해 캐럿 패키지를 사용합니다. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) 그 후, testSet (새 데이터)에서 randomForest를 테스트합니다. RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 혼란 매트릭스는 모델이 그렇게 나쁘지 않다는 것을 보여줍니다. confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 …

2
로지스틱 회귀 분석과 랜덤 포레스트 결과를 결합하는 방법은 무엇입니까?
나는 기계 학습을 처음 사용합니다. 로지스틱 회귀 및 임의 포리스트를 동일한 데이터 세트에 적용했습니다. 따라서 변수 중요성 (로지스틱 회귀의 절대 계수 및 임의의 포리스트의 변수 중요도)을 얻습니다. 최종 변수 중요성을 얻기 위해 두 가지를 결합하려고합니다. 누구나 자신의 경험을 공유 할 수 있습니까? 배깅, 부스팅, 앙상블 모델링을 확인했지만 필요한 것은 아닙니다. …

2
임의 포리스트에 대한 캐럿을 사용한 기능 선택 및 매개 변수 조정
수천 개의 기능이있는 데이터가 있으며 정보가없는 기능을 제거하기 위해 재귀 적 기능 선택 (RFE)을 수행하려고합니다. 캐럿 과 RFE 로이 작업을 수행합니다 . 그러나 최상의 회귀 적합도 (예 : 임의 포리스트)를 얻으려면 언제 매개 변수 조정 ( mtryRF)을 수행해야하는지 생각하기 시작했습니다 . 즉, 캐럿이 이해하는 것처럼 고정 mtry로 다른 기능 하위 …

1
임의 포리스트 (또는 다른 분류기)를 사용한 계층화 된 분류
저는 약 60 x 1000의 행렬을 가지고 있습니다. 저는 1000 개의 특징을 가진 60 개의 물체로보고 있습니다; 60 개의 객체는 3 개의 클래스 (a, b, c)로 그룹화됩니다. 각 클래스에 20 개의 개체가 있으며 실제 분류를 알고 있습니다. 이 60 가지 교육 예제 세트에 대해지도 학습을하고 싶습니다. 분류기 정확도 (및 관련 …

2
랜덤 포레스트는 예측 편견을 나타 냅니까?
왜 또는 왜 그렇지 않을지에 대한 추론이 있지만 이것은 간단한 질문이라고 생각합니다. 내가 묻는 이유는 내가 최근에 자체 RF 구현을 작성했으며 그것이 잘 수행하더라도 예상 한 것만 큼 성능이 좋지 않다는 것입니다 ( Kaggle 사진 품질 예측 경쟁 데이터 세트, 우승 점수 및 일부 어떤 기술이 사용되었는지에 관한 후속 정보). …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.