당신이 경우 무작위로 당신의 5 개 수단 것이다 거의 일치한다 5 부 표본에 샘플을 분할합니다. 이러한 밀착 점을 초기 클러스터 센터로 만드는 의미는 무엇입니까?
많은 K- 평균 구현에서, 초기 군집 중심의 기본 선택은 반대 개념에 기초합니다. 멀리 떨어진 지점을 찾는 방법은 무엇입니까? SPSS의 K-means가 수행하는 작업은 다음과 같습니다.
어떤 받아 K의 초기 센터와 같은 데이터 세트의 경우 (점). 다음 조건에 따라 모든 나머지 사례를 초기 센터로 대체 할 수 있는지 확인합니다.
- a) 케이스가 서로 가장 가까운 두 센터 사이의 거리보다 케이스에서 가장 가까운 센터에서 더 멀면 케이스는 가장 가까운 센터의 중심을 대체합니다.
- b) 케이스가 가장 가까운 센터와 가장 가까운 센터와 가장 가까운 센터 사이의 거리보다 케이스에서 가장 가까운 센터에서 더 멀면 케이스가 가장 가까운 센터를 대체합니다.
조건 (a)가 충족되지 않으면 조건 (b)가 점검되고; 그것이 만족스럽지 않다면 어느 경우 든 중심이되지 않는다. 사례를 통해 이러한 실행의 결과로 우리가 얻을 케이 초기 센터가 클라우드에서 최상의 사례. 이 알고리즘의 결과는 충분히 강력하지만 "모든 k 사례" 의 시작 선택 과 데이터 세트의 사례 정렬에 완전히 영향을받지 않습니다 . 따라서 항상 K- 평균의 경우와 같이 몇 가지 임의의 시작 시도가 여전히 환영 합니다.
k- 평균에 대한 인기있는 초기화 방법 목록이있는 대답 을 참조하십시오 . SPSS에 의해 사용 된 기술 된 방법뿐만 아니라 임의의 서브 샘플 (여기서 나와 다른 사람들에 의해 분류 된)로 분할하는 방법도 목록에 있습니다.