표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다.
각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다.
구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다.
그게 전부입니까, 아니면 다른 것이 있습니까?
표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다.
각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다.
구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다.
그게 전부입니까, 아니면 다른 것이 있습니까?
답변:
질문은 ~이야:
고전적인 k- 평균과 구형 k- 평균의 차이점은 무엇입니까?
클래식 K- 평균 :
고전적인 k- 평균에서는 클러스터 중심과 클러스터 멤버 사이의 유클리드 거리를 최소화하려고합니다. 이것의 직관은 클러스터 중심에서 요소 위치까지의 반경 거리가 해당 클러스터의 모든 요소에 대해 "동일"하거나 "유사해야"한다는 것입니다.
알고리즘은 다음과 같습니다.
구형 K- 평균 :
구형 k- 평균에서 아이디어는 각 군집의 중심을 설정하여 구성 요소 사이의 각도를 균일하고 최소화하도록하는 것입니다. 직감은 별을 보는 것과 같습니다. 점은 서로 일관된 간격을 가져야합니다. 이 간격은 "코사인 유사성"으로 정량화하기가 더 간단하지만, 데이터의 하늘을 가로 질러 큰 밝은 면봉을 형성하는 "은하"은하가 없음을 의미합니다. (예, 설명 의이 부분에서 할머니 와 이야기 하려고합니다 .)
더 기술적 인 버전 :
방향, 길이가 고정 된 화살표로 벡터로 그린 것, 벡터를 생각해보십시오. 어디서나 번역 할 수 있으며 동일한 벡터 일 수 있습니다. 심판
공간에서 점의 방향 (기준선과의 각도)은 선형 대수, 특히 내적을 사용하여 계산할 수 있습니다.
꼬리가 같은 지점에 있도록 모든 데이터를 이동하면 "벡터"를 각도별로 비교하고 유사한 벡터를 단일 클러스터로 그룹화 할 수 있습니다.
명확하게하기 위해, 벡터의 길이는 스케일링되어, "안구"비교하기가 더 쉽다.
당신은 그것을 별자리로 생각할 수 있습니다. 단일 클러스터의 별들은 어떤 의미에서 서로 가깝습니다. 이것들은 내 눈알로 별자리로 간주됩니다.
일반적인 접근 방법의 가치는 tf-idf 방법과 같이 기하학적 차원이없는 벡터를 문서에서 구할 수 있다는 것입니다. 추가 된 두 개의 "및"단어는 "the"와 같지 않습니다. 단어는 비 연속적이고 숫자가 아닙니다. 그것들은 기하학적 의미에서 비 물리적이지만 우리는 그것들을 기하학적으로 생각한 다음 기하학적 방법을 사용하여 처리 할 수 있습니다. 구형 k- 평균을 사용하여 단어를 기반으로 군집화 할 수 있습니다.
제 (2D 랜덤 연속) 데이터 그래서 하였다 :
일부 요점 :
실제 과정을 살펴보고 내 "눈알"이 얼마나 나쁜지를 봅시다.
절차는 다음과 같습니다
D ( X , P ) = 1 - C O S ( X , P ) = ⟨ X , P ⟩
(더 많은 수정 사항이 곧 제공 될 예정입니다)
모래밭:
radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster
단순히 부정확하거나 무딘 소리. 에서 both uniform and minimal the angle between components
"구성 요소"정의되지 않았습니다. 좀 더 엄격하고 확장하면 잠재적으로 큰 대답을 향상시킬 수 있기를 바랍니다.