텍스트 처리에서 클러스터링 사용


11

안녕하세요, 이것은 데이터 과학 스택의 첫 번째 질문입니다. 텍스트 분류를위한 알고리즘을 만들고 싶습니다. 많은 텍스트와 기사가 있다고 가정하십시오. 약 5000 개의 일반 텍스트를 말할 수 있습니다. 먼저 간단한 함수를 사용하여 4 개 이상의 문자 단어의 빈도를 결정합니다. 그런 다음이를 각 교육 샘플의 기능으로 사용합니다. 이제 알고리즘이 기능에 따라 훈련 세트를 클러스터링 할 수 있기를 원합니다.이 기사의 각 단어의 빈도는 다음과 같습니다. (이 예에서는 각 기사마다 다른 기능이 있으므로 각 기사에는 고유 한 기능이 있습니다. 예를 들어 기사에는 10 개의 "물"과 23 개의 "순수", 다른 하나에는 8 개의 "정치"및 14 개의 "레버리지"가 있습니다. 이 예제에 가장 적합한 클러스터링 알고리즘을 제안 할 수 있습니까?

답변:


5

Ted Pedersen ( http://senseclusters.sourceforge.net/)의 SenseCluster를 읽은 적이 있는지 모르겠습니다 . 감각 클러스터링에 매우 적합한 용지입니다.

또한 단어를 분석 할 때 "컴퓨터", "컴퓨터", "컴퓨터"등은 하나의 개념을 나타내므로 하나의 기능 만 있다고 생각하십시오. 올바른 분석을 위해 매우 중요합니다.

클러스터링 알고리즘에 대해 이야기하기 위해 계층 적 클러스터링을 사용할 수 있습니다 . algo의 각 단계에서 특징에 따라 가장 유사한 두 개의 텍스트를 병합합니다 (예 : 비 유사성, 유클리드 거리 측정). 비 유사성 척도를 사용하면 텍스트와 기사에 가장 적합한 클러스터 수와 클러스터 수를 찾을 수 있습니다.

행운을 빕니다 :)


6

기존 경로를 진행하려면 전체 용어에서 인기도에 따라 각 용어의 빈도를 정규화하는 것이 좋습니다. 따라서 희귀하고 예측 단어가 홍보됩니다. 그런 다음 임의 투영법을 사용하여 매우 긴 벡터의 크기를 크기로 줄이면 클러스터링 알고리즘이 더 잘 작동합니다 (고차원 공간에서 클러스터링하고 싶지 않음).

그러나 다른 주제 모델링 방법이 있습니다. 자세한 내용은 자습서를 읽으십시오 .



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.