텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까?
Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에.
이 정보를 사용하여 해당 등급이 표시된 펄스를 권장 할 수 있습니다. 그러나 콘텐츠와 관련이없는 미리 정의 된 단어 모음을 사용하면 기능 벡터에 0이 가득 차고 카테고리도 콘텐츠와 관련이 없을 수 있습니다. 이러한 이유로 우리는 콘텐츠를 분류하지 않고 클러스터링하는 다른 솔루션을 시도했습니다.
감사 :)