이러한 큰 데이터 세트가 있으면 통계 및 머신 러닝 모델링 기술을 사용할 수 있으며 이는 매우 권장됩니다. 다른 사람들이 제안했듯이 데이터에서 수백만 개의 무작위 샘플을 가져 와서 재생할 것을 권장합니다. 이것이 분류 문제이기 때문에 먼저 간단한 분류 기술을 따른 다음 나중에 더 복잡한 기술을 사용합니다. 로지스틱 회귀는 시작하기에 좋습니다.
생성 모델 도 시도해야 한다고 덧붙이고 싶습니다 . Naive Bayes 분류기 는 가장 간단한 확률 적 분류기 중 하나이며 많은 작업에서 지원 벡터 시스템과 같은 많은 복잡한 방법보다 성능이 우수합니다. 당신은 볼 수 있습니다 이 NB의 간단한 구현하고 이 로지스틱 회귀에 NB의 비교에 대한 링크.
NB (Nive Bayes) 분류기를 기본 모델로 구축 한 다음 SVM (Support Vector Machine) 또는 MLP (Multilayer Perceptron)와 같은 모든 머신 러닝 기술을 사용할 수 있습니다. 여기서의 단점은 NB가 MLP보다 계산 비용이 저렴하므로 MLP의 더 나은 성능이 필요하다는 것입니다.
정확한 쿼리 제공 : 딥 러닝 및 그라디언트 트리 부스팅은 데이터의 모든 종류의 관계를 모델링 할 수있는 매우 강력한 기술입니다. 그러나 귀하의 경우 간단한 로지스틱 회귀 또는 NB가 원하는 정확도를 제공한다면 어떨까요? 따라서 간단한 기술을 먼저 시도하고 기본 성능을 유지하는 것이 좋습니다. 그런 다음 복잡한 모델로 가서 기준선과 비교할 수 있습니다.