k- 평균 대 k- 중간 값?


14

k- 평균 군집 알고리즘과 k- 중간 값이 있다는 것을 알고 있습니다. 하나는 평균을 군집의 중심으로 사용하고 다른 하나는 중앙값을 사용합니다. 내 질문은 언제 / 어디를 사용해야합니까?


차원이 둘 이상인 경우 중앙값 을 정의 하고 계산해야합니다. 각 값의 중앙값을 취하면 회전 속성이 손실됩니다. 추가 가능성은 k- medoids
Henry

답변:


14

k- 평균은 제곱 유클리드 거리와 동일한 클러스터 내 분산을 최소화합니다.

일반적으로 산술 평균 이이를 수행합니다. 거리를 최적화 하지 않지만 평균과의 편차를 제곱합니다.

k-medians는 맨해튼 거리와 동일한 절대 편차를 최소화합니다.

일반적으로 축별 중앙값 이이를 수행해야합니다. 제곱 값 대신 절대 편차의 합 (즉, sum_i abs (x_i-y_i))을 최소화하려는 경우 평균에 대한 좋은 추정값입니다.

정확성에 대한 질문은 아닙니다. 정확성의 문제입니다. ;-)

다음은 의사 결정 트리입니다.

  • 거리가 제곱 인 경우 유클리드 거리 인 경우 k- 평균을 사용 합니다
  • 거리가 택시 통계 인 경우 인 경우 k- 중앙값을 사용하십시오
  • 당신은 할 경우 다른 거리 , 사용 K-medoids을

일부 예외 : 내가 알 수있는 한, 코사인 유사성을 최대화하는 것은 L2 정규화 된 데이터에서 제곱 유클리드 거리를 최소화하는 것과 관련이 있습니다. 따라서 데이터가 L2 정규화되면; 각 반복마다 평균을 정규화하면 k- 평균을 다시 사용할 수 있습니다.


다차원 데이터에 대한 중앙값의 개념에 대해 고유하게 동의 된 개념이 없기 때문에 중앙값이 맨해튼 거리를 최소화한다는 진술에 다소 문제가 있습니다. 그것은 틀린 것이 아니지만 다차원 적 맥락에서 만들어내는 잘못된 진술을 발견했습니다. 중간 값의 다차원 일반화가 있으며, 그 중 다수는 맨해튼 거리를 최소화하는 것과 관련이 없습니다.
Tim Seguine

1
이것을 축별 중앙값으로 변경합니다. 나는 당신이 지금 더 행복하기를 바랍니다.
종료-익명-무스

2

극단적 인 값의 가능한 영향에 관한 분석을하지 않으려면 k 평균을 사용하지만보다 정확하게 사용하려면 k 중간 값을 사용하십시오


5
이러한 주장을 어떤 식 으로든 지원 및 / 또는 설명 할 수 있습니까?
jona

그래 좀 더 정교하게 해줄 래? 예를 들어?
Jack Twain

2
"중앙값"이 특이 치를 견딜 수 있지만 "평균"은 그들에 의해 완전히 영향을 받기 때문입니다. 예를 들어, 만약 우리가 데이터 포인트 {1,2,3,5,78}를 가지고 있다면 78이 더 이상하다는 것은 명백합니다. 이 데이터의 중앙값은 3이고 평균은 17.8입니다. 따라서 중앙값은 이러한 데이터를 요약하는 가장 좋은 방법입니다.
Fadwa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.