이진 분류 알고리즘을 선택하십시오

17

이진 분류 문제가 있습니다.

훈련 세트에서 약 1000 개의 샘플
이진, 숫자 및 범주를 포함한 10 가지 속성

이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까?

기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

— IharS
소스

15

데이터 세트에 대해 조금 더 알지 못하고 특징 벡터를 기준으로 데이터 세트를 분리하는 방법을 알지 못하면 말하기가 어렵지만 상대적으로 작은 샘플 세트로 인해 표준 임의 포리스트보다 극단적 인 임의 포리스트를 사용하는 것이 좋습니다.

극도의 랜덤 포레스트는 표준 랜덤 포레스트와 매우 유사합니다. 단 하나의 트리에서 분할을 최적화하는 대신 극도의 랜덤 포레스트는 임의로 분할합니다. 처음에는 이것이 부정적인 것처럼 보이지만 일반적으로 훈련 세트의 AUC가 조금 더 나빠질 수는 있지만 일반적으로 일반화 및 속도가 훨씬 뛰어납니다.

로지스틱 회귀는 이러한 종류의 작업에 매우 확실한 내기이지만 상대적으로 낮은 차원과 작은 샘플 크기로 과적 합에 대해 걱정할 것입니다. K-Nearest Neighbors를 사용하여 체크 아웃 할 수 있습니다. 차원이 적은 경우에 의지가 많지만 일반적으로 범주 형 변수를 잘 처리하지 못합니다.

문제에 대해 더 많이 알지 못하고 골라야 할 경우, 극단적으로 임의의 숲에 내기를 걸 것입니다. 이러한 종류의 데이터 세트에 대한 일반화가 가능할 가능성이 높으며 숫자 및 범주 데이터의 혼합을 더 잘 처리합니다. 대부분의 다른 방법보다.

— 인디 코
소스

고마워요! 아직 R 패키지 "randomForest"( cran.r-project.org/web/packages/randomForest/randomForest.pdf )를 사용하여 ERF를 생성 할 수 있는지 확실하지는 않습니다 . 아마 아닙니다.

— IharS

12

매개 변수가 낮 으면 샘플 크기가 상당히 제한되고 이진 분류기 로지스틱 회귀는 충분히 강력해야합니다. 더 고급 알고리즘을 사용할 수 있지만 과잉 일 수 있습니다.

— neone4373
소스

5

범주 형 변수가 혼합되어 있으면 1-n-n 인코딩 변환없이 범주 형 변수를 직접 처리하므로 랜덤 결정 포리스트에 도달합니다. 이것은 정보를 덜 잃습니다.

— 숀 오언
소스

5

리니어 SVM은 좋은 출발점이되어야합니다. 이 안내서를 보고 올바른 견적서를 선택하십시오.

— 스탠 폴
소스

2

복잡한 방법을 먼저 사용하지 않는 것이 좋습니다. 처음에는 더 빠른 간단한 접근 방식 (kNN, NBC 등)을 사용한 다음 선형 회귀, 로지스틱 회귀, LDA, CART (RF), KREG 및 최소 제곱 SVM, 그라디언트 상승 SVM, ANN 및 Metaheurustics (욕심쟁이) GA, 웜 인텔리전스, 개미 식민지 최적화 등을 사용한 휴리스틱 힐 클라이밍)