가장 먼저 분류 할 상위 5 개 분류기


25

명백한 분류기 특성 외에도

  • 계산 비용,
  • 기능 / 라벨의 예상 데이터 유형
  • 데이터 세트의 특정 크기 및 차원에 대한 적합성

아직 잘 모르는 새로운 데이터 세트에 대해 먼저 시도해야하는 상위 5 개 (또는 10, 20?) 분류기는 무엇입니까 (예 : 의미 및 개별 기능의 상관 관계)? 일반적으로 Naive Bayes, Nearest Neighbor, Decision Tree 및 SVM을 시도합니다.하지만이 선택에 대한 이유는 없지만 그것들을 알고 그 작동 방식을 대부분 이해합니다.

가장 중요한 일반 분류 방법 을 다루는 분류기를 선택해야한다고 생각합니다 . 해당 기준에 따라 또는 다른 이유로 어떤 것을 선택 하시겠습니까?


업데이트 : 이 질문에 대한 대체 공식은 다음과 같습니다. "분류에 대한 일반적인 접근 방법은 무엇이며 어떤 방법이 가장 중요 / 인기 / 유망한 방법을 다루고 있습니까?"


나는 이것이 ( stats.stackexchange.com/questions/3458/… ) 의 사본이라고 생각합니다 . 여기서 질문의 유일한 추가 가치는 "분류자를 선택하는 기준"일 수 있습니다 (질문을 매우 일반적인 것으로 만들 것입니다). 복제 본인 경우 닫기 투표를하고 그렇지 않으면 cw 투표를하십시오.)
steffen

@ steffen : 참조 된 질문은 도움이되지만 중복되지는 않습니다. 실제로 내 질문은 다소 일반적입니다. 특정 문제에 대한 해결책을 찾고 있지 않지만 일반적인 학습 이유로 왜 어떤 학습자를 사용해야하는지-그에 따라 내 질문을 업데이트하겠습니다.
Oben Sonne

답변:


21

랜덤 포레스트

빠르고 강건하며 우수한 정확도, 대부분의 경우 튜닝 할 필요가 없으며 정규화가 필요 없으며 공선성에 면역성이 없으며 훈련의 부작용으로 사소한 병렬로 눈에 깜빡이는 예측으로 상당히 우수한 오차 근사와 유용한 중요도 순위를 생성합니다.

단점 : kNN 또는 NB와 같은 사소한 방법보다 속도가 느리며 동등한 클래스에서 가장 잘 작동하며 커널 트릭을 필사적으로 요구하는 문제에 대해 SVM보다 정확도가 떨어지며 하드 블랙 박스이며 커피를 만들지 않습니다.


1
@mbq (+1) 클래스 불균형에 대해, 우리는 여전히 bagging 동안 계층화 된 샘플링에 의존 할 수 있습니다.
chl

3
@mbq, 커피를 만들지 않습니까? 그것은 바로 거래 차단기입니다.
추기경

Random Forests 에 대한 힌트를 주셔서 감사합니다 . 그러나 당신은 그들 만 시도 하시겠습니까? 결과가 마음에 들지 않으면 어떻게합니까? 다른 분류기를 사용해 보시겠습니까? 또는 누군가 "왜 다른 방법을 시도하지 않았습니까?"
Oben Sonne

@Oben 글쎄, 나는 당신이 대답 당 하나의 분류 자 ​​풀을 만들고 있음을 이해했습니다.

@mbq : 실제로는 아니지만 그러한 수영장으로 밝혀졌습니다. 아마도 나는 그 문제에 대해 충분히 명확하게하지 않았다. 실제로 나는 다른 일반적인 분류 방법 (강점과 약점이 다른)을 다루기 위해 먼저 시도해야 할 분류 자 ​​세트를 알고 싶었습니다. 나는 더 많은 분류자를 시도해서는 안되는지 항상 스스로에게 묻습니다. 내가 시도한 방법이 이미 가장 전형적인 / 유망한 접근 방식을 나타내는 것으로 알고 있으면 여기에 도움이 될 것입니다. 그러나이를 위해서는 어느 분류 자에 대해 알아야합니다. (나는 통계 전문가가 아니기 때문에 내 마음이 조금 뒤틀
렸는지

7

가우시안 프로세스 분류기 (Laplace 근사법을 사용하지 않음), 바람직하게는 하이퍼 파라미터의 최적화보다는 주변 화가 있습니다. 왜?

  1. 그들은 확률 적 분류를하기 때문에
  2. 벡터가 아닌 데이터를 직접 조작하거나 전문 지식을 통합 할 수있는 커널 기능을 사용할 수 있습니다
  3. 모델을 올바르게 피팅 할 때의 불확실성을 처리하며 의사 결정 프로세스를 통해 불확실성을 전파 할 수 있습니다.
  4. 일반적으로 매우 우수한 예측 성능.

단점

  1. 느린
  2. 많은 메모리가 필요합니다
  3. 대규모 문제에는 실용적이지 않습니다.

첫 번째 선택은 정규화 된 로지스틱 회귀 또는 능선 회귀입니다. [기능 선택없이]-대부분의 문제에서 매우 간단한 알고리즘은 다소 잘 작동하고 잘못하기가 더 어렵습니다 (실제로 알고리즘 간의 성능 차이는 성능 차이보다 작습니다) 운전자를 운전하는 것).


1

새로운 데이터 세트에 접근 할 때는 모든 문제를 감시해야합니다. 우선 범주 형 특징에 대한 분포와 각 연속적인 특징에 대한 평균 및 표준 편차를 얻습니다. 그때:

  • X % 이상의 결 측값이있는 피쳐를 삭제합니다.
  • 특정 값이 상대 빈도의 90-95 % 이상이되면 범주 형 피쳐를 삭제합니다.
  • CV = std / mean <0.1;로 연속 피처 삭제
  • 매개 변수 순위를 얻습니다 (예 : 연속 분석에 대한 분산 분석 및 범주에 대한 카이 제곱 분석).
  • 기능의 중요한 부분 집합을 확보하십시오.

그런 다음 일반적으로 분류 기술을 흰색 상자와 블랙 박스 기술의 두 세트로 나눕니다. '분류 기가 작동하는 방식'을 알아야하는 경우 의사 결정 트리 또는 규칙 기반 분류기와 같은 첫 번째 세트에서 선택해야합니다.

모델을 구축하지 않고 새 레코드를 분류해야하는 경우 KNN과 같이 열성적인 학습자를 살펴 봐야합니다.

그 후 정확성과 속도 사이에 임계 값을 두는 것이 낫다고 생각합니다. 신경망은 SVM보다 약간 느립니다.

이것이 나의 상위 5 가지 분류 기술입니다.

  1. 의사 결정 트리;
  2. 규칙 기반 분류 자;
  3. SMO (SVM);
  4. 나이브 베이 즈;
  5. 신경망.

4
-1 큰 p 작은 n에 대한 절대적으로 잘못된 워크 플로우, FS 과적 합이 보장됩니다.

1
kNN은 열망하는 학습자보다는 게으른 학습자가 아닌가? 분류기를 적용하기 전에 수행하는 모든 전처리는 분류기 간의 차이보다 성능에 더 큰 영향을 줄 수 있습니다. 기능 선택은 특히 어렵고 (쉽게 과적 합으로 이어짐) 정규화를 사용하는 SVM과 같은 방법은 일반적으로 기능 선택없이 더 잘 수행됩니다. 나는 신경망, 너무 많은 잠재적 함정을 추천하지 않을 것입니다.
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.