다음과 같은 문제가 있습니다. 단어, 이름, 성 등 매우 긴 목록이 있습니다.이 단어 목록을 클러스터링하여 유사한 단어 (예 : 유사한 편집 (Levenshtein) 거리를 가진 단어가 동일한 클러스터. 예를 들어 "algorithm"과 "alogrithm"은 같은 클러스터에 나타날 가능성이 높습니다.
패턴 인식 문헌에서 k- 평균 군집화, EM 군집화와 같은 고전적인 감독되지 않은 군집 방법을 잘 알고 있습니다. 여기서 문제는 이러한 방법이 벡터 공간에있는 점에서 작동한다는 것입니다. 나는 내 손에 줄의 단어가 있습니다. 지금까지의 조사 노력에 따르면 수치 벡터 공간에서 문자열을 표현하고 문자열 클러스터의 "평균"을 계산하는 방법에 대한 질문에 충분히 대답하지 않은 것 같습니다. 이 문제를 공격하는 순진한 접근 방식은 k- 평균 군집화와 레 벤슈 테인 거리를 결합하는 것이지만 여전히 "문자열의"평균 "을 나타내는 방법"이라는 질문이 남아 있습니다. TF-IDF 가중치라고하는 가중치가 있지만 이는 단일 단어의 클러스터링이 아니라 "텍스트 문서"클러스터링 영역과 관련이있는 것 같습니다. http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
이 분야에 대한 검색은 여전히 진행 중이지만 여기서 아이디어를 얻고 싶었습니다. 이 경우 어떤 종류의 문제에 대한 방법을 알고 있습니까?
It seems that there are some special string clustering algorithms
. 통계 / 데이터 분석이 아닌 텍스트 마이닝 분야에서 나온 경우이 진술이 필요합니다. 그러나 클러스터링 브랜치를 배우면 문자열 데이터에 대한 "특별한"알고리즘이 없다는 것을 알게 될 것입니다. "특별"은 클러스터 분석에 데이터를 입력하기 전에 이러한 데이터를 사전 처리하는 방법입니다.