scikit 분류 기준을 분류하는 데 시간이 얼마나 걸립니까?

10

1 백만 개의 레이블이 지정된 문서로 구성된 모음에서 텍스트 분류를 위해 scikit 선형 지원 벡터 머신 (SVM) 분류기를 사용할 계획입니다. 내가 할 계획은 사용자가 키워드를 입력하면 분류자가 먼저 범주별로 분류 한 다음 해당 범주 범주의 문서 내에서 후속 정보 검색 쿼리가 발생한다는 것입니다. 몇 가지 질문이 있습니다.

분류에 많은 시간이 걸리지 않음을 어떻게 확인합니까? 더 나은 결과를 얻기 위해 사용자가 분류가 완료되기를 기다리는 데 시간을 소비하지 않기를 바랍니다.
웹 사이트 / 웹 응용 프로그램에 Python의 scikit 라이브러리를 사용하는 것이 적합합니까?
아마존이나 플립 카트가 사용자 쿼리에서 분류를 수행하는 방법을 알고 있습니까? 아니면 완전히 다른 논리를 사용합니까?

— 사용자 3498
소스

모든 키워드를 미리 분류 한 다음 색인에서 카테고리를 가져 오기만하면됩니다.

— ffriend

@ffriend는 한 단어 쿼리에 대한 답변처럼 보입니다. 그러나 검색어가 더 많은 단어로 구성되어 있거나 단어의 조합으로 구성되어 있다면 모든 조합에 대한 색인을 만들어야합니다!

— user3498

1

SVC는 빠르므로 중간로드 응용 프로그램에서 쿼리 분류에 사용하려는 경우 작동합니다. 그러나 단일 또는 여러 단어로 분류하는 것은 대부분의 경우 나쁜 생각입니다. 예를 들어, 모호한 단어를 사용하십시오. 어떤 단어가 확률의 차이가 거의없는 2 개의 범주에 속하면 어떻게됩니까? 가능성이 적은 카테고리를 검색에서 제외 하시겠습니까? 가장 가능성이 높은 것은 검색하는 동안 수식의 순위를 매기는 추가 용어로, 가능성이 적은 카테고리를 전혀 거부하지는 않습니다.

— ffriend

3

시간이 얼마나 걸리는지 확인하는 유일한 방법은 코드를 작성하고 사진을 제공하는 것입니다. 교육에 더 많은 시간이 소요되며 나중에 사용하기 위해 모델 (피클)을 저장할 수 있습니다.

— 사용자 1269942
소스

3

나는 여기에 큰 문제가 보이지 않습니다. 따라서 프로덕션 수준의 관점에서 귀하의 모든 질문에 답변하려고합니다.

분류에 많은 시간이 걸리지 않음을 어떻게 확인합니까?

보유한 말뭉치 데이터의 부분 집합을 취하고 (샘플링 할 필요없이 무작위로 수행 할 수 있음) 알고리즘을 테스트 한 후 전체 데이터 세트에 근사 / 일반화합니다.

(SVM은 비교적 빠릅니다. 그럼에도 불구하고 위의 프로세스를 수행하여 확인하십시오.)

그리고 프로덕션 환경으로 가기 전에 개발 환경에서 테스트하십시오.

웹 사이트 / 웹 응용 프로그램에 Python의 scikit 라이브러리를 사용하는 것이 적합합니까?

그렇습니다 . 그것은되어 이미 사용하고 거기 회사의 좋은 덩어리로.

Amazon과 Flipkart에 관한 세 번째 질문은 팀 외부의 누군가가 대답 할 수 없습니다.

또한 mapreduce 기술을 사용하여 모델을 학습하는 것이 좋습니다. 이미 조언했듯이 모든 요청에 따라 모델을 교육 할 필요가 없도록 모델을 피클하십시오.

— Dawny33
소스