중심을 찾는 것이 평균을 찾는 것과 어떻게 다릅니 까?


26

계층 적 클러스터링을 수행 할 때 많은 메트릭을 사용하여 클러스터 간의 거리를 측정 할 수 있습니다. 이러한 두 가지 메트릭은 클러스터의 중심점 및 데이터 포인트의 평균을 의미합니다.

평균과 중심의 차이점은 무엇입니까? 클러스터에서 동일한 지점이 아닙니까?

답변:


38

내가 아는 한 군집의 "평균"과 단일 군집의 중심은 같은 것이지만, 다변량 데이터를 처리 할 때 "중심"이라는 용어는 "평균"보다 약간 더 정확할 수 있습니다.

중심을 찾기 위해 각 차원에 대해 개별적으로 점 위치의 (산술) 평균을 계산합니다. 예를 들어 다음에 포인트가있는 경우

  • (-1, 10, 3),
  • (0, 5, 2) 및
  • (1, 20, 10),

중심은 ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3)에 위치하여 (0, 11 2/3, 5). (NB : 중심은 원래 데이터 포인트 중 하나 일 필요는 없으며 거의 ​​없습니다)

중심은 물리적 해석 (점으로 정의 된 물체의 질량 중심)을 기준으로 질량 중심 또는 무게 중심이라고도합니다. 평균과 마찬가지로 중심 위치는 다른 점과의 거리 제곱을 최소화합니다.

관련 아이디어는 메도 이드 (medoid)인데 , 이는 다른 모든 데이터 포인트와 "가장 적은"데이터 포인트입니다. 중심과 달리, 메도 이드는 원래 점 중 하나 여야합니다. 또한 중앙값과 유사하지만 다변량 데이터 의 기하 중앙값에 관심이있을 수 있습니다 . 이것들은 모두 중심과 다릅니다.

에이중심(에이)중심()에이나는에이거리(에이나는,1)거리(에이나는,2)거리(에이나는,)


어떤 조건에서 중심과 메도 이드는 동일합니까? 또한 왜 중심이 일련의 포인트를 잘 나타내는가?
raikumardipak

@dkr, 더 많은 (그리고 더 심층적 인) 응답을 얻기 위해 이것을 새로운 질문으로 할 수 있습니다. 즉, 차이는 1) 최소화해야 할 것 (중심 거리의 경우 제곱 거리 / L2 규범, 메디 토드의 경우 절대 거리 / L1 규범) 및 2) 출력이 임의의 포인트 (중심) 또는 데이터 세트에 있어야합니다 (메디 오드). 그것들이 같은 경우를 상상할 수 있지만 일반적으로는 그렇지 않을 것입니다. 중심이 평균과 같은 이유로 (점까지의 최소 제곱 거리) 중심점도 비슷하며 유사한 단점도 있습니다 (예 : 특이 치에 대해 강력하지 않음).
Matt Krause

4

위의 답변이 잘못되었을 수 있습니다.이 비디오를 참조하십시오 https://www.youtube.com/watch?v=VMyXc3SiEqs 평균은 군집 1과 군집 2의 요소 사이의 거리 조합을 합산합니다. 2 개의 거리를 더한 다음 n ^ 2로 평균으로 나눕니다.

Centroid 방법은 먼저 자체 클러스터 내 각 클러스터의 평균을 계산합니다. 그런 다음 평균점 사이의 거리를 계산합니다.


1
안녕 게이브! 비디오 의이 부분 에 대해 이야기하고 있다고 생각 하십니까? 내가 아는 한, 단일 군집의 중심과 평균은 동일하지만 두 군집 사이 의 중심 거리와 평균 거리는 다른 척도입니다. OP가 전자에 대해 묻고 있다고 생각했지만 후자에 대해서도 조금 편집했습니다. 이를 지적하고 (+1) Cross Validated에 오신 것을 환영합니다!
매트 크라우스

-1

중심은 군집에있는 데이터 점의 평균이며, 중심점은 데이터 세트에 존재할 필요가없는 반면, 메도 이드는 중심에 가까운 데이터 점이며, 메도 이드는 원래 데이터에 있어야합니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.