표준 및 구형 k- 평균 알고리즘의 차이점


28

표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다.

각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다.

구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다.

그게 전부입니까, 아니면 다른 것이 있습니까?

답변:


23

질문은 ~이야:

고전적인 k- 평균과 구형 k- 평균의 차이점은 무엇입니까?

클래식 K- 평균 :

고전적인 k- 평균에서는 클러스터 중심과 클러스터 멤버 사이의 유클리드 거리를 최소화하려고합니다. 이것의 직관은 클러스터 중심에서 요소 위치까지의 반경 거리가 해당 클러스터의 모든 요소에 대해 "동일"하거나 "유사해야"한다는 것입니다.

알고리즘은 다음과 같습니다.

  • 클러스터 수 설정 (일명 클러스터 수)
  • 공간의 점을 군집 지수에 무작위로 할당하여 초기화
  • 수렴 될 때까지 반복
    • 각 포인트마다 가장 가까운 클러스터를 찾아 클러스터에 포인트를 할당하십시오.
    • 각 군집에 대해 멤버 포인트의 평균을 찾고 센터 평균을 업데이트하십시오.
    • 오류는 군집 거리의 표준입니다

구형 K- 평균 :

구형 k- 평균에서 아이디어는 각 군집의 중심을 설정하여 구성 요소 사이의 각도를 균일하고 최소화하도록하는 것입니다. 직감은 별을 보는 것과 같습니다. 점은 서로 일관된 간격을 가져야합니다. 이 간격은 "코사인 유사성"으로 정량화하기가 더 간단하지만, 데이터의 하늘을 가로 질러 큰 밝은 면봉을 형성하는 "은하"은하가 없음을 의미합니다. (예, 설명 의이 부분에서 할머니이야기 하려고합니다 .)

더 기술적 인 버전 :

방향, 길이가 고정 된 화살표로 벡터로 그린 것, 벡터를 생각해보십시오. 어디서나 번역 할 수 있으며 동일한 벡터 일 수 있습니다. 심판

여기에 이미지 설명을 입력하십시오

공간에서 점의 방향 (기준선과의 각도)은 선형 대수, 특히 내적을 사용하여 계산할 수 있습니다.

꼬리가 같은 지점에 있도록 모든 데이터를 이동하면 "벡터"를 각도별로 비교하고 유사한 벡터를 단일 클러스터로 그룹화 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

명확하게하기 위해, 벡터의 길이는 스케일링되어, "안구"비교하기가 더 쉽다.

여기에 이미지 설명을 입력하십시오

당신은 그것을 별자리로 생각할 수 있습니다. 단일 클러스터의 별들은 어떤 의미에서 서로 가깝습니다. 이것들은 내 눈알로 별자리로 간주됩니다.

여기에 이미지 설명을 입력하십시오

일반적인 접근 방법의 가치는 tf-idf 방법과 같이 기하학적 차원이없는 벡터를 문서에서 구할 수 있다는 것입니다. 추가 된 두 개의 "및"단어는 "the"와 같지 않습니다. 단어는 비 연속적이고 숫자가 아닙니다. 그것들은 기하학적 의미에서 비 물리적이지만 우리는 그것들을 기하학적으로 생각한 다음 기하학적 방법을 사용하여 처리 할 수 ​​있습니다. 구형 k- 평균을 사용하여 단어를 기반으로 군집화 할 수 있습니다.

제 (2D 랜덤 연속) 데이터 그래서 하였다 :

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

일부 요점 :

  • 문서 길이의 차이를 설명하기 위해 단위 구로 투영합니다.

실제 과정을 살펴보고 내 "눈알"이 얼마나 나쁜지를 봅시다.

절차는 다음과 같습니다

  1. (문제에 함축되어 있음) 벡터 꼬리를 원점에 연결
  2. 단위 영역에 투영 (문서 길이의 차이를 설명하기 위해)
  3. " 코사인 유사성 " 을 최소화하기 위해 클러스터링 사용

D ( X , P ) = 1 - C O S ( X , P ) = X , P

J=id(xi,pc(i))
여기서
d(x,p)=1cos(x,p)=x,pxp

(더 많은 수정 사항이 곧 제공 될 예정입니다)

모래밭:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

텍스트 파일에서 문자를 정렬하거나 가중치와 함께 변경을 나타내는 "diff"기능은 의미있는 클러스터링을 향상시키기 위해 "함께"텍스트를 사전 처리하는 데 유용 할 수 있습니다.
EngrStudent-Reinstate Monica

나는 # 1 (의 링크에서 "액세스 금지"를 얻을 sci.utah.edu/~weiliu/research/clustering_fmri/... )
데이비드 도리아

@David-나도. 항상 운동은 ... 인터넷입니까? 잠깐만 요.
EngrStudent-복직 모니카

1
약간의 망설임 후 나는 현재이 답변을 공감하기로 결정했다. 너무 "할머니"설명 일뿐만 아니라 정확하지 않습니다. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster단순히 부정확하거나 무딘 소리. 에서 both uniform and minimal the angle between components"구성 요소"정의되지 않았습니다. 좀 더 엄격하고 확장하면 잠재적으로 큰 대답을 향상시킬 수 있기를 바랍니다.
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.