그래서 저는 ML 분야의 초보자이며 분류를하려고합니다. 내 목표는 스포츠 이벤트의 결과를 예측하는 것입니다. 나는 몇 가지 역사적 데이터를 수집했으며 이제 분류기를 훈련하려고합니다. 나는 약 1200 개의 샘플을 얻었고, 그중 0.2 개는 테스트 목적으로 분리되었으며 다른 샘플은 다른 분류 기준으로 그리드 검색에 포함되었습니다 (교차 유효성 검사 포함). 나는 선형, rbf 및 다항식 커널과 랜덤 포레스트로 SVM을 시도했습니다. 불행히도 0.5보다 큰 정확도를 얻을 수는 없습니다 (임의의 무작위 선택과 동일). 그런 복잡한 사건의 결과를 예측할 수 없다는 것을 의미합니까? 아니면 적어도 0.7-0.8 정확도를 얻을 수 있습니까? 가능하다면 다음에 무엇을 살펴 봐야합니까?
- 더 많은 데이터를 얻으시겠습니까? (데이터 세트를 5 배까지 확대 할 수 있습니다)
- 다른 분류기를 사용해 보시겠습니까? (물류 회귀, kNN 등)
- 기능 세트를 다시 평가 하시겠습니까? 분석 할 ML 도구가 있습니까? 어떤 기능이 적합하고 어떤 기능이 적합하지 않습니까? 어쩌면 기능 세트를 줄여야합니까 (현재 12 개의 기능이 있음)?