1 백만 개의 레이블이 지정된 문서로 구성된 모음에서 텍스트 분류를 위해 scikit 선형 지원 벡터 머신 (SVM) 분류기를 사용할 계획입니다. 내가 할 계획은 사용자가 키워드를 입력하면 분류자가 먼저 범주별로 분류 한 다음 해당 범주 범주의 문서 내에서 후속 정보 검색 쿼리가 발생한다는 것입니다. 몇 가지 질문이 있습니다.
- 분류에 많은 시간이 걸리지 않음을 어떻게 확인합니까? 더 나은 결과를 얻기 위해 사용자가 분류가 완료되기를 기다리는 데 시간을 소비하지 않기를 바랍니다.
- 웹 사이트 / 웹 응용 프로그램에 Python의 scikit 라이브러리를 사용하는 것이 적합합니까?
- 아마존이나 플립 카트가 사용자 쿼리에서 분류를 수행하는 방법을 알고 있습니까? 아니면 완전히 다른 논리를 사용합니까?