이것은 적어도 몇 시간 동안 내 마음 속에있었습니다. k- 평균 알고리즘 ( 코사인 유사성 메트릭 사용 ) 의 출력에 대한 최적의 k를 찾으려고 노력 했기 때문에 클러스터 수의 함수로 왜곡을 플로팅했습니다. 내 데이터 세트는 600 차원 공간에 800 개의 문서를 모은 것입니다.
내가 이해 한 바에 따르면,이 곡선에서 무릎 점 또는 팔꿈치 점을 찾으면 데이터를 넣는 데 필요한 클러스터의 수를 대략 대략 알려 주어야합니다. 아래 그래프를 넣습니다. 빨간색 세로선이 그려지는 지점은 최대 2 차 미분 테스트를 사용하여 얻었습니다 . 이 모든 작업을 수행 한 후, 나는 훨씬 더 간단한 것을 고집했습니다.이 그래프는 데이터 세트에 대해 무엇을 알려줍니까?
클러스터링 할 가치가없고 문서에 구조가 부족하거나 k를 높게 설정해야한다고 알려줍니까? 한 가지 이상한 점은 k가 낮더라도 비슷한 문서가 함께 클러스터링되는 것을보고 있으므로 왜이 곡선을 얻는 지 잘 모르겠습니다. 이견있는 사람?
terms x document
단일 벡터를 수행 한 후 획득 분해. 내가 틀렸다면 정정 해주세요.