다른 알고리즘 대신 k- 평균을 사용하는 이유는 무엇입니까?


14

나는 k- 평균에 대해 연구했고 이것들은 내가 얻은 것입니다 : k- 평균은 감독되지 않은 학습 방법을 사용하여 알려진 클러스터링 문제를 해결하는 가장 간단한 알고리즘 중 하나입니다. 큰 데이터 세트에서 실제로 잘 작동합니다.

그러나 K-Means의 단점은 다음과 같습니다.

  • 특이 치 및 노이즈에 대한 강한 감도
  • 비 원형 클러스터 형태에서는 제대로 작동하지 않습니다. 클러스터 수와 초기 시드 값을 미리 지정해야합니다.
  • 로컬 최적을 통과하는 낮은 기능.

k-means에 대한 좋은 점은 단점이 k-means에 대한 좋은 점을 넘어선 것 같습니다.

가르쳐주세요.


3
가에 사용되는 문제의 맥락없이 좋은 방법이나 좋은 알고리즘 같은 건 없다 K-수단이 최적의 솔루션이되는 문제가 있기 때문에 따라서 우리가 사용하는 K-수단을 (;.

답변:


8

더 나은 기능을 가진 다른 클러스터링 알고리즘은 더 비싼 경향이 있습니다. 이 경우 k- 평균은 사전 클러스터링을위한 훌륭한 솔루션이되어 공간을 다른 클러스터링 알고리즘을 적용 할 수있는 더 작은 하위 공간으로 줄입니다.


프로그램 비용과 같이 더 비쌉니까? 또는?
금 두개골 패턴 패턴

5
느리고 메모리를 많이 사용하는 것처럼 비싸다.
Martin O'Leary

아 알 겠어요 빠르고 강력하며 이해하기 쉬운 것 이외의 다른 이점이 있습니까? 어쨌든 @ MartinO'Leary와 @ zeferino
패턴이있는 금 해골

6

K- 평균이 가장 간단합니다. 구현하고 실행합니다. "k"를 선택하고 여러 번 실행하기 만하면됩니다.

더 많은 영리한 알고리즘 (특히 좋은 알고리즘)은 효율적으로 구현하기가 훨씬 어렵고 (런타임 차이에서 100 배의 요소를 보게 됨) 훨씬 더 많은 매개 변수를 설정할 수 있습니다.

또한 대부분의 사람들은 양질의 클러스터가 필요하지 않습니다 . 그들은 실제로 원격으로 일하는 모든 것에 만족합니다. 또한 더 복잡한 군집이있을 때 어떻게해야할지 모릅니다. 가장 간단한 모델 인 중심을 사용하여 군집을 모델링하는 K- 평균은 정확히 필요한 것입니다. 대규모 데이터 축소 무게 중심을을 .


0

K- 평균은 교환 정렬 알고리즘과 같습니다. 이해하기 쉽고 주제에 들어가는 데 도움이되지만 절대로 절대로 사용해서는 안됩니다. Exchange 정렬의 경우 배열이 부분적으로 정렬되면 초기에 중지 할 수 있기 때문에 Bubble Sort도 더 좋습니다. K- 평균의 경우 EM 알고리즘은 동일한 알고리즘이지만 K- 평균의 균일 분포 가정 대신 클러스터에 대한 가우스 분포를 가정합니다. K- 평균은 모든 군집에 대각선 공분산 행렬이있는 경우 EM의 경우입니다. 가우시안 구조는 클러스터가 아주 좋은 방법으로 데이터를 축소 랩핑한다는 것을 의미합니다. 이것은 당신이 질문에서 올바르게 제기하는 심각한 이의 제기를 해결합니다. 그리고 EM은 K- 평균보다 훨씬 비싸지 않습니다. (Excel 스프레드 시트에서 둘 다 구현할 수 있습니다.) 그러나 심각한 클러스터링 응용 프로그램의 경우

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.