안녕하세요, 이것은 데이터 과학 스택의 첫 번째 질문입니다. 텍스트 분류를위한 알고리즘을 만들고 싶습니다. 많은 텍스트와 기사가 있다고 가정하십시오. 약 5000 개의 일반 텍스트를 말할 수 있습니다. 먼저 간단한 함수를 사용하여 4 개 이상의 문자 단어의 빈도를 결정합니다. 그런 다음이를 각 교육 샘플의 기능으로 사용합니다. 이제 알고리즘이 기능에 따라 훈련 세트를 클러스터링 할 수 있기를 원합니다.이 기사의 각 단어의 빈도는 다음과 같습니다. (이 예에서는 각 기사마다 다른 기능이 있으므로 각 기사에는 고유 한 기능이 있습니다. 예를 들어 기사에는 10 개의 "물"과 23 개의 "순수", 다른 하나에는 8 개의 "정치"및 14 개의 "레버리지"가 있습니다. 이 예제에 가장 적합한 클러스터링 알고리즘을 제안 할 수 있습니까?