답변:
데이터 세트에 대해 조금 더 알지 못하고 특징 벡터를 기준으로 데이터 세트를 분리하는 방법을 알지 못하면 말하기가 어렵지만 상대적으로 작은 샘플 세트로 인해 표준 임의 포리스트보다 극단적 인 임의 포리스트를 사용하는 것이 좋습니다.
극도의 랜덤 포레스트는 표준 랜덤 포레스트와 매우 유사합니다. 단 하나의 트리에서 분할을 최적화하는 대신 극도의 랜덤 포레스트는 임의로 분할합니다. 처음에는 이것이 부정적인 것처럼 보이지만 일반적으로 훈련 세트의 AUC가 조금 더 나빠질 수는 있지만 일반적으로 일반화 및 속도가 훨씬 뛰어납니다.
로지스틱 회귀는 이러한 종류의 작업에 매우 확실한 내기이지만 상대적으로 낮은 차원과 작은 샘플 크기로 과적 합에 대해 걱정할 것입니다. K-Nearest Neighbors를 사용하여 체크 아웃 할 수 있습니다. 차원이 적은 경우에 의지가 많지만 일반적으로 범주 형 변수를 잘 처리하지 못합니다.
문제에 대해 더 많이 알지 못하고 골라야 할 경우, 극단적으로 임의의 숲에 내기를 걸 것입니다. 이러한 종류의 데이터 세트에 대한 일반화가 가능할 가능성이 높으며 숫자 및 범주 데이터의 혼합을 더 잘 처리합니다. 대부분의 다른 방법보다.
복잡한 방법을 먼저 사용하지 않는 것이 좋습니다. 처음에는 더 빠른 간단한 접근 방식 (kNN, NBC 등)을 사용한 다음 선형 회귀, 로지스틱 회귀, LDA, CART (RF), KREG 및 최소 제곱 SVM, 그라디언트 상승 SVM, ANN 및 Metaheurustics (욕심쟁이) GA, 웜 인텔리전스, 개미 식민지 최적화 등을 사용한 휴리스틱 힐 클라이밍)