데이터 세트의 랜덤 서브 샘플을 사용하여 K- 평균 센터를 초기화합니까?


13

특정 데이터 세트가있는 경우 해당 데이터 세트의 임의 샘플을 사용하여 클러스터 센터를 초기화하는 것이 얼마나 영리합니까?

예를 들어, 내가 원한다고 가정하십시오 5 clusters. 내가 가지고 5 random samples, 말의 size=20%원본 데이터 셋의. 그런 다음이 5 개의 임의 샘플 각각의 평균을 취하여 해당 평균을 5 개의 초기 클러스터 센터로 사용할 수 있습니까? 나는 이것을 어디에서 읽었는지 모르겠지만 나는 당신들 아이디어에 대해 어떻게 생각하는지 알고 싶었다.


업데이트 : 이 스레드를 참조하십시오 .K- 평균 클러스터링 초기화 : 기존 방법은 무엇입니까? 다양한 초기화 방법에 대한 일반적인 토론.


11
당신이 경우 무작위로 당신의 5 개 수단 것이다 거의 일치한다 5 부 표본에 샘플을 분할합니다. 이러한 밀착 점을 초기 클러스터 중심으로 만드는 의미는 무엇입니까? 대부분의 K- 평균 구현에서, 초기 군집 중심의 기본 선택은 반대 개념을 기반으로합니다 : 가장 멀리있는 5 개의 점을 찾아서 중심으로 만듭니다.
ttnphns 2016 년

2
@ttnphns 이것은 좋은 답변이 될 것입니다.

2
전체 평균을 한 지점으로 선택하고 그 중심에서 다양한 방향으로 멀리 떨어진 다른 지점을 선택하는 것이 훨씬 낫다고 생각합니다.
Michael R. Chernick

1
말이된다. 멀리 떨어져있는이 5 가지 점을 찾으려면 어떻게해야합니까? 감사합니다!
JEquihua

@JEquihua, 나는 답변으로 내 의견을 게시하고 요청한 세부 정보를 추가했습니다.
ttnphns 2016 년

답변:


16

당신이 경우 무작위로 당신의 5 개 수단 것이다 거의 일치한다 5 부 표본에 샘플을 분할합니다. 이러한 밀착 점을 초기 클러스터 센터로 만드는 의미는 무엇입니까?

많은 K- 평균 구현에서, 초기 군집 중심의 기본 선택은 반대 개념에 기초합니다. 멀리 떨어진 지점을 찾는 방법은 무엇입니까? SPSS의 K-means가 수행하는 작업은 다음과 같습니다.

어떤 받아 K의 초기 센터와 같은 데이터 세트의 경우 (점). 다음 조건에 따라 모든 나머지 사례를 초기 센터로 대체 할 수 있는지 확인합니다.

  • a) 케이스가 서로 가장 가까운 두 센터 사이의 거리보다 케이스에서 가장 가까운 센터에서 더 멀면 케이스는 가장 가까운 센터의 중심을 대체합니다.
  • b) 케이스가 가장 가까운 센터와 가장 가까운 센터와 가장 가까운 센터 사이의 거리보다 케이스에서 가장 가까운 센터에서 더 멀면 케이스가 가장 가까운 센터를 대체합니다.

조건 (a)가 충족되지 않으면 조건 (b)가 점검되고; 그것이 만족스럽지 않다면 어느 경우 든 중심이되지 않는다. 사례를 통해 이러한 실행의 결과로 우리가 얻을 케이 초기 센터가 클라우드에서 최상의 사례. 이 알고리즘의 결과는 충분히 강력하지만 "모든 k 사례" 의 시작 선택 과 데이터 세트의 사례 정렬에 완전히 영향을받지 않습니다 . 따라서 항상 K- 평균의 경우와 같이 몇 가지 임의의 시작 시도가 여전히 환영 합니다.

k- 평균에 대한 인기있는 초기화 방법 목록이있는 대답참조하십시오 . SPSS에 의해 사용 된 기술 된 방법뿐만 아니라 임의의 서브 샘플 (여기서 나와 다른 사람들에 의해 분류 된)로 분할하는 방법도 목록에 있습니다.


1
설명을 마친 후에는 어떤 초기화 지점이 더 나은 파티션으로 연결되는지 확인하기 위해 어떤 통계를 사용할 수 있습니까? 모두 감사합니다.
JEquihua 2018 년

초기 센터로 최대한 포인트를 사용 하면 결국 최선의 파티션을 받고, (임의의 초기 센터에 비해) "로컬 최적"에 갇히지의 기회를 감소 할, 그리고 그들이 융합의 과정을 빠르게 그들이 생각 보장하지 않습니다 . 사례의 순서에 따라 전체 k- 평균 파티션을 2 ~ 5 회 수행하고, 획득 한 최종 중심을 저장하고 , 평균화 한 후 하나의 최종 군집화를위한 초기 중심으로 입력합니다. 이 파티션은 반드시 최고입니다. 다른 k 의 부분을 비교하지 않는 한 실제로 통계를 확인할 특별한 통계가 필요하지 않습니다 .
ttnphns 2016 년

1
다른 k의 파티션을 비교하고 싶습니다. 무엇을 사용할 수 있습니까? 좋은 생각이 뭐야? 도와 주셔서 감사합니다. @ttnphns.
JEquihua

이 존재하는 "내부"클러스터링 표준들을 . k- 평균에 가장 적합한 것 중 하나는 Calinski-Harabasz (다변량 Fisher 's F)입니다. 그것이나 다른 사람들을위한 구글.
ttnphns 2016 년

7

그 수단은 너무 비슷할 것입니다. 데이터 세트 평균을 찾은 다음이 평균 주위의 작은 원 / 구에 초기 중심을 배치 할 수 있습니다.

k-means에 대한 더 많은 사운드 초기화 구성표를 보려면 k-means ++를 살펴보십시오. 그들은 k- 평균을 파종하기위한 아주 영리한 방법을 고안했습니다.

  • Arthur, D. 및 Vassilvitskii, S. (2007).
    k- 평균 ++ : 신중한 파종의 장점 ".
    이산 알고리즘에 관한 제 18 회 연례 ACM-SIAM 심포지엄

저자 슬라이드 : http://www.ima.umn.edu/~iwen/REU/BATS-Means.pdf


나는 이것을 읽습니다. 매우 직관적으로 유리 해 보이지만 단순히 많은 무작위 초기화 포인트를 취하는 것보다 더 잘 작동한다는 것이 아직 입증되지 않았다고 생각합니다. kmpp <-function (X, k) {n <-nrow (X) C <-numeric (k) C [1] <-sample (1 : n, 1) (i에서 2 : k) {dm <-distmat (X, X [C,]) pr <-적용 (dm, 1, 분); pr [C] <-0 C [i] <
-sample

수렴 할 때까지 반복 횟수를 크게 줄이고 평균적으로 더 나은 결과를 생성하는 것으로 알려져 있습니다. 내 자신의 실험에서 kmeans ++가 갈 길임을 확인할 수 있습니다. ELKI 구현을 사용하고 있습니다.
종료 : 익명-무스

ELKI 구현이란 무엇입니까? 어디서 찾을 수 있습니까? 인사말!
JEquihua


4

무작위 표본의 수단을 사용하면 ttnphns가 그의 의견에서 지적한 것처럼 필요한 것과 반대의 결과를 얻을 수 있습니다. 우리가 필요로하는 것은 서로 상당히 멀리 떨어진 데이터 포인트를 찾는 방법입니다.

이상적으로는 모든 점을 반복하고 그 점 사이의 거리를 찾고 거리가 가장 큰 곳을 결정할 수 있습니다 ...

OP의 의도를 회피하지는 않지만 "솔루션"이 k- 평균 알고리즘에 내장되어 있다고 생각합니다. 이전 반복을 기반으로 여러 반복을 수행하고 클러스터 중심을 다시 계산합니다. 또한 일반적으로 kmeans 알고리즘을 여러 번 (임의의 초기 값으로) 실행하고 결과를 비교합니다.

사전 지식, 도메인 지식 이 있다면 초기 클러스터 센터의 위치를 ​​식별하는 탁월한 방법으로 이어질 수 있습니다. 그렇지 않으면 임의의 데이터 포인트를 초기 값으로 선택한 다음 실행 당 여러 번의 실행 및 여러 번의 반복을 활용하는 것이 중요합니다.


설명을 마친 후에는 어떤 초기화 지점이 더 나은 파티션으로 연결되는지 확인하기 위해 어떤 통계를 사용할 수 있습니까? 모두 감사합니다.
JEquihua 2018 년

2

k


많은 의미가 있습니다. 내가 아만에게 부탁 한 것과 똑같이 물어봐도 될까요? 내가 임의의 초기 포인트를 취한다고 가정 해보십시오. 결과 파티션 중 가장 좋은 파티션을 결정하기 위해 무엇을 사용할 수 있습니까? 인사말! @gmacfarlane
JEquihua

k

k
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.