답변:
k- 평균은 제곱 유클리드 거리와 동일한 클러스터 내 분산을 최소화합니다.
일반적으로 산술 평균 이이를 수행합니다. 거리를 최적화 하지 않지만 평균과의 편차를 제곱합니다.
k-medians는 맨해튼 거리와 동일한 절대 편차를 최소화합니다.
일반적으로 축별 중앙값 이이를 수행해야합니다. 제곱 값 대신 절대 편차의 합 (즉, sum_i abs (x_i-y_i))을 최소화하려는 경우 평균에 대한 좋은 추정값입니다.
정확성에 대한 질문은 아닙니다. 정확성의 문제입니다. ;-)
다음은 의사 결정 트리입니다.
일부 예외 : 내가 알 수있는 한, 코사인 유사성을 최대화하는 것은 L2 정규화 된 데이터에서 제곱 유클리드 거리를 최소화하는 것과 관련이 있습니다. 따라서 데이터가 L2 정규화되면; 각 반복마다 평균을 정규화하면 k- 평균을 다시 사용할 수 있습니다.
극단적 인 값의 가능한 영향에 관한 분석을하지 않으려면 k 평균을 사용하지만보다 정확하게 사용하려면 k 중간 값을 사용하십시오