분류 문제를 해결하고 있다고 가정합니다. (사기 탐지 및 댓글 스팸은 현재 진행중인 두 가지 문제이지만 일반적으로 분류 작업이 궁금합니다.)
어떤 분류기를 사용해야하는지 어떻게 알 수 있습니까?
- 의사 결정 트리
- SVM
- 베이지안
- 신경망
- K- 최근 접 이웃
- Q- 러닝
- 유전자 알고리즘
- 마르코프 의사 결정 프로세스
- 컨볼 루션 신경망
- 선형 회귀 또는 로지스틱 회귀
- 부스팅, 배깅, 샘 블링
- 임의의 언덕 등반 또는 모의 어닐링
- ...
어떤 경우에 "자연적인"첫 번째 선택이 있으며, 그 중 하나를 선택하기위한 원칙은 무엇입니까?
내가 찾고있는 답변 유형의 예 (Manning et al. 's Introduction to Information Retrieval book) :
ㅏ. 데이터에 레이블이 지정되어 있지만 수량이 한정되어있는 경우 바이어스가 높은 분류기를 사용해야합니다 (예 : Naive Bayes) .
바이어스가 높을수록 분산이 낮기 때문에 작은 양의 데이터 때문에 좋습니다.
비. 많은 양의 데이터가 있다면 분류자는 그다지 중요하지 않으므로 확장 성이 좋은 분류기를 선택해야합니다.
다른 지침은 무엇입니까? "상위 관리 담당자에게 모델을 설명해야하는 경우 의사 결정 규칙이 상당히 투명하므로 의사 결정 트리를 사용해야합니다"와 같은 대답도 좋습니다. 그래도 구현 / 라이브러리 문제에 대해서는 신경 쓰지 않습니다.
또한 표준 베이지안 분류 자 외에 다소 별도의 질문이있는 경우 스팸 스팸 탐지에 대한 '표준 최신 기술'방법이 있습니까 (이메일 스팸과 반대 되는가)?