의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다.
이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까?
이제 단어 목록과 문장 사이의 거리를 다음과 같이 정의하여 가장 간단한 기능을 사용하려고합니다.
(A와 B는 문장 A와 B의 해당 단어 세트입니다)
전혀 말이 되나요?
사전에 클러스터 수가 필요하지 않기 때문에 scikit 라이브러리에서이 거리까지 Mean-Shift 알고리즘 을 적용하려고합니다 .
누군가가 문제에 대한 더 나은 방법 / 접근법을 조언한다면, 나는이 주제를 처음 접했을 때 대단히 감사하겠습니다.