클러스터링 품질 측정

17

입력 매개 변수 (클러스터 수 )가있는 클러스터링 알고리즘 (k가 아닌 )이 있습니다. 클러스터링을 수행 한 후이 클러스터링의 품질을 정량적으로 측정하고 싶습니다. 클러스터링 알고리즘에는 하나의 중요한 속성이 있습니다. 들면 I 피드 경우 I 함유 한 클러스터 얻을 결과,이 알고리즘에 간의 현저한 차이없이 데이터 포인트를 데이터 요소와 함께 하나 개의 클러스터 데이터 포인트. 분명히 이것은 내가 원하는 것이 아닙니다. 따라서이 클러스터링의 합리성을 추정하기 위해이 품질 측정 값을 계산하려고합니다. 이상적으로 다른 대해이 측정 값을 비교할 수 있습니다 . 범위에서 클러스터링을 실행합니다. $k$ $k=2$ $N$ $N-1$ $1$ $k$ $k$ 최고 품질의 제품을 선택하십시오. 이러한 품질 측정은 어떻게 계산합니까?

최신 정보:

다음은 이 나쁜 클러스터링 인 경우의 예입니다. 정삼각형을 형성하는 평면에 3 개의 점이 있다고 가정합니다. 이 지점을 2 개의 클러스터로 나누는 것이 1 또는 3 개의 클러스터로 나누는 것보다 훨씬 나쁩니다. $(N-1, 1)$

clustering

— 맥스
소스

나에게 이것은 분명하지 않습니다. 나는 실제로는 항상 다른 크기를 가진 클러스터를 본다 ...

— Anony-Mousse -Reinstate Monica

12

메트릭의 선택은 클러스터링의 목적으로 생각하는 것에 달려 있습니다. 개인적으로 클러스터링은 서로 다른 데이터 생성 프로세스로 생성 된 서로 다른 관측 그룹을 식별하는 것이어야한다고 생각합니다. 따라서 알려진 데이터 생성 프로세스에서 데이터를 생성하여 클러스터링의 품질을 테스트 한 다음 클러스터링에 의해 패턴이 잘못 분류되는 빈도를 계산합니다. 물론 여기에는 각 생성 프로세스의 패턴 분포에 대한 가정이 포함되지만 감독 된 분류를 위해 설계된 데이터 세트를 사용할 수 있습니다.

다른 사람들은 클러스터링을 유사한 속성 값으로 포인트를 함께 그룹화하려고 시도하는데,이 경우 SSE 등과 같은 측정이 적용됩니다. 그러나 클러스터링에 대한이 정의는 기본 분포에 대해 일반화 할 수있는 것이 아니라 특정 데이터 샘플에 대해서만 설명하기 때문에 다소 불만족 스럽다는 것을 알게되었습니다. 메소드가 겹치는 클러스터를 처리하는 방법이이보기의 특정 문제점입니다 ( "데이터 생성 프로세스"보기의 경우 실제 문제가 발생하지 않으며 클러스터 멤버쉽의 가능성 만 나타납니다).

— 디크 란 유대류
소스

3

모델 기반 클러스터링 과 순수 거리 기반 비 감독 클러스터링 의 차이점을 강조하기 위해 +1 .

— chl

1

두 가지 목적이 다른 설정에서 공정하게 사용된다고 생각합니다. 실제 데이터 만 보려고 실제로 수행 한 컨텍스트가 많이 있습니다 (예 : 특이 치 정의). 또한 다른 데이터 생성 프로세스에 도달하기 전에 두 번째 정의로 가장 잘 수행되는 탐색이 필요합니다.

— Etienne Low-Décarie

나는 에티엔 느가 두 가지 방법을 모두 사용한다는 데 동의합니다. 그러나 관측치가 특이 치인지 암시 적으로 데이터 생성 프로세스에 대한 몇 가지 가정을하고 있기 때문에 두 번째 형태의 군집화는 아마도 자신을 올바르게 지향하려고 할 때 데이터를 이해하는 첫 번째 단계 일뿐입니다.

— Dikran Marsupial

4

클러스터링은 감독되지 않기 때문에 최상의 클러스터링이 무엇인지 사전에 알기가 어렵습니다. 이것이 연구 주제입니다. 잘 알려진 양적 사회 과학자 인 게리 킹 (Gary King) 은이 주제에 대한 다음 기사 를 가지고있다 .

+! 예; @Max이 "분명한"클러스터링은 무엇입니까?

@ mbq : 실제로 이것이 좋은 클러스터링이 무엇인지 모르겠습니다. "명백한"(N-1, 1)은 확실히 이것에 대한 좋은 클러스터링이 아니라는 것을 언급합니다. 더 나은 클러스터링은 하나의 클러스터이므로 클러스터링은 전혀 없습니다. 또는 2 개 이상의 클러스터 수를 가진 일부 클러스터링

— Max

연결이 끊어진 것 같습니다.

— Etienne Low-Décarie

기사에 대한 업데이트 된 링크 : gking.harvard.edu/files/abs/discov-abs.shtml

— Dolan Antenucci

4

여기 몇 가지 조치가 있지만 더 많은 조치가 있습니다.

SSE : 각 군집 항목의 제곱 오차 합계입니다.

군집 거리 : 각 군집 중심 사이의 제곱 거리의 합입니다.

각 군집에 대한 군집 거리 : 각 군집 항목에서 중심까지의 제곱 거리의 합.

최대 반경 : 인스턴스에서 클러스터 중심까지의 최대 거리.

평균 반경 : 인스턴스에서 클러스터 중심까지의 최대 거리의 합을 클러스터 수로 나눈 값입니다.

— 마리아나 수퍼
소스

클러스터 간 거리에서 인트라를 사용해 보았지만 한 점이있는 클러스터에 유용한 것을 생각할 수 없었습니다. 또한 중심점이 없습니다. 점 사이의 거리 만 있습니다.

— Max

클러스터 간 거리가 높을수록 클러스터 중심 사이의 거리를 계산하여 측정 할 수 있습니다.

— mariana soffer

4

클러스터링 유효성 검사 영역에 부딪 쳤습니다. 제 학생은 다음에 설명 된 기술을 사용하여 유효성 검사를 수행했습니다.

A. Banerjee와 RN Dave. 홉킨스 통계를 사용하여 클러스터 유효성 검사 2004 퍼지 시스템에 관한 IEEE 국제 회의 IEEE Cat No04CH37542, 1 : p. 149–153, 2004.

클러스터가 유효하면 데이터 포인트가 클러스터 내에서 균등하게 분배된다는 원칙에 기초합니다.

그러나 그 전에 데이터에 소위 클러스터링 경향이 있는지, 즉 클러스터링 할 가치가 있고 최적의 클러스터 수를 갖는지 결정해야합니다.

S. Saitta, B. Raphael 및 IFC Smith. 클러스터링을위한 포괄적 인 유효성 인덱스. Intell. 자료 분석, 12 (6) : p. 529–548, 2008.

— danas.zuokas
소스

3

다른 사람들이 지적했듯이 클러스터링 "품질"에 대한 많은 측정이 있습니다. 대부분의 프로그램은 SSE를 최소화합니다. 서스 캐처 원에서는 데이터의 소음, 분석법의 소음, 또는 최소값에 대해 많은 숫자를 알 수 없습니다.

따라서 먼저 "41"로 줄이기 전에 주어진 클러스터링을 시각화하고 느낌을 얻으십시오. 그런 다음 3 회 실행합니다. SSE 41, 39, 43 또는 41, 28, 107을 얻습니까? 클러스터 크기와 반경은 무엇입니까?

(Added :) 예를 들어 Modern Multivariate Statistical Techniques (2008, 731p, isbn 0387781889)의 Izenman 저서에서 실루엣 플롯과 실루엣 스코어를 살펴보십시오 .

— 거부
소스

3

실루엣 클러스터링 결과를 평가하는 데 사용할 수 있습니다. 클러스터 내의 평균 거리와 가장 가까운 클러스터의 점과의 평균 거리를 비교하여 그렇게합니다.

— sebp
소스

2

감독되지 않은 임의 포리스트에 사용 된 것과 같은 방법을 사용할 수 있습니다.

랜덤 포레스트 알고리즘은 감독되지 않은 분류를 두 가지 클래스 문제로 취급하며, 데이터의 종속성 구조를 제거하여 완전히 다른 인공 및 랜덤 데이터 세트가 첫 번째 데이터 세트에서 생성되었습니다 (랜덤 화).

그런 다음 이러한 인공 및 무작위 데이터 세트를 생성하고 클러스터링 모델을 적용하고 실제 데이터와 임의 데이터에서 선택한 측정 항목 (예 : SSE)을 비교할 수 있습니다.

랜덤 화, 순열, 부트 스트래핑, 배깅 및 / 또는 재니 핑을 혼합하면 주어진 군집 모델이 메트릭을 사용하여 임의의 데이터보다 작은 데이터를 제공하는 횟수를 측정하여 P 값과 유사한 측정 값을 제공 할 수 있습니다. 선택 (예 : SSE 또는 가방 외부 오류 예측).

따라서 귀하의 측정 항목은 실제 데이터와 임의의 데이터 중에서 선택하는 측정 항목에서 차이 (확률, 크기 차이 등)입니다.

많은 모델에서이 작업을 반복하면 모델을 구별 할 수 있습니다.

이것은 R로 구현 될 수 있습니다.

randomforest는 R에서 사용할 수 있습니다

— 에티엔 로데 카리
소스

+1, 나는이 아이디어를 좋아한다; 그러나 데이터 무작위 화 / 순열은 b / t 변수의 관계 만 깨뜨릴 수 있습니다. 단일 변수가있는 클러스터링이 있으면 작동하지 않습니다.

— gung-Monica Monica 복원

1

군집 알고리즘이 결정적이지 않은 경우 군집의 "안정성"을 측정하십시오. 각 두 관측치가 동일한 군집에 속하는 빈도를 찾으십시오. 이것은 km 단위의 k를 선택하는 데 유용한 일반적으로 흥미로운 방법입니다.

— 큐빅
소스