군집 분석 가정


16

초보적인 질문에 대한 사과, 나는이 형태의 분석에 익숙하지 않으며 지금까지 원리에 대한 이해가 매우 제한적입니다.

다변량 / 단 변량 검정에 대한 많은 파라 메트릭 가정이 군집 분석에 적용되는지 궁금합니다. 클러스터 분석과 관련하여 읽은 많은 정보 소스는 가정을 지정하지 않습니다.

특히 관측의 독립성에 관심이 있습니다. 내 이해는이 가정 (예 : ANOVA 및 MAVOVA)의 위반이 오류 추정에 영향을 미치기 때문에 심각하다는 것입니다. 지금까지 필자가 읽은 바에 따르면 군집 분석은 주로 기술적 인 것으로 보입니다 (특정 사례의 경우 통계적 추론 만 포함됨). 따라서 독립성 및 정규 분포 데이터와 같은 가정이 필요합니까?

이 문제를 다루는 텍스트에 대한 권장 사항은 대단히 감사하겠습니다. 많은 감사합니다.

답변:


7

음, 클러스터링 기술은 기하학적 의미에서 서로 비정상적으로 가까운 통계 단위 그룹을 찾는 거리 기반 방법으로 제한되지 않습니다 . 밀도 (클러스터는 피처 공간에서 "영역"으로 표시됨) 또는 확률 분포에 의존하는 다양한 기술도 있습니다 .

후자의 경우는 모델 기반 클러스터링 이라고도 합니다 . 심리학자들은 잠재 프로파일 분석 이라는 용어를 사용하여 유한 한 혼합 모델 의 특정 사례를 나타냅니다 . 여기서 우리는 모집단이 다른 관찰되지 않은 그룹 또는 잠재 클래스로 구성되고 모든 매니페스트 변수의 결합 밀도가이 클래스의 혼합이라고 가정합니다. 특정 밀도. Mclust 패키지 또는 Mplus 소프트웨어 에서 올바른 구현이 가능 합니다. 다른 클래스 불변량 공분산 행렬을 사용할 수 있습니다 (사실, Mclust는 BIC 기준을 사용하여 클러스터 수를 변경하면서 최적의 것을 선택합니다).

표준 잠재 클래스 모델 은 또한 관측 된 데이터가 g 다변량 다항 분포의 혼합에서 나온다고 가정합니다. 모델 기반 군집 분석 : 방어에 대한 유용한 개요가 있습니다 .Gilles Celeux의 .

이러한 방법은 분포 가정에 의존하기 때문에 거리 기반 클러스터 분석에서 여전히 어려운 문제로 남아있는 클러스터 또는 클래스 수를 결정하기 위해 공식 테스트 또는 적합도 지수를 사용할 수 있습니다. 이 문제에 대해 토론했습니다.

  1. Handl, J., Knowles, J. 및 Kell, DB (2005). 게놈 후 데이터 분석에서 전산 클러스터 검증. 생물 정보학 , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) 클러스터 안정성에 대한 클러스터 별 평가. 계산 통계 및 데이터 분석 , 52 , 258-271.
  3. Hennig, C. (2008) 용해 점 및 분리 견고성 : 일반적인 군집 분석 방법에 대한 견고성 기준. 다변량 분석 저널 , 99 , 1154-1176.

3

본질적으로 탐색적인 매우 다양한 클러스터링 방법이 있으며 계층 적이든 파티션 기반이든 상관없이 분산 분석을 위해 충족해야하는 가정에 의존한다고 생각하지 않습니다.

귀하의 질문에 답변하기 위해 Stata의 [MV] 문서를 살펴본 결과 85 페이지에서이 재미있는 인용문을 발견했습니다.

일부 사람들은 클러스터 분석을 수행하는 사람들이있는 것처럼 클러스터 분석 방법이 많다고 말했습니다. 이것은 심각한 과소 평가입니다! 클러스터 분석을 수행하는 사람들보다 클러스터 분석을 수행하는 방법이 무한히 많습니다.

그런 맥락에서 클러스터링 방법에 적용되는 가정이 있는지 의심합니다. 텍스트의 나머지 부분은 군집을 만들기 위해 미터 거리 일 필요도없는 "비 유사성 측정"형식이 필요하다는 일반적인 규칙으로 설정되어 있습니다.

그러나 사후 추정 분석의 일부로 관측치를 군집화하는 경우가 하나 있습니다. Stata에서 vce명령은 동일한 소스의 86 페이지에 다음 경고와 함께 제공됩니다.

Stata의 대규모 추정 명령 배열에 익숙한 경우 군집 분석 (클러스터 명령)과 많은 추정 명령에 허용되는 vce (cluster clustvar) 옵션을 구분해야합니다. 군집 분석은 데이터에서 그룹을 찾습니다. 다양한 추정 명령과 함께 허용되는 vce (cluster clustvar) 옵션은 관측치가 옵션에 의해 정의 된 그룹에서 독립적이지만 반드시 해당 그룹 내에서 독립적 일 필요는 없음을 나타냅니다. cluster 명령으로 생성 된 그룹화 변수는 vce (cluster clustvar) 옵션 사용에 대한 가정을 거의 만족시키지 않습니다.

이를 바탕으로, 나는 그 특별한 경우를 제외하고 독립적 인 관찰이 필요하지 않다고 가정 할 것입니다. 직관적으로, 나는 클러스터 분석이 관측치가 독립적인지 아닌지를 탐구하는 정확한 목적으로 사용될 수 있다고 덧붙일 것입니다.

나는에, 그 언급으로 마무리됩니다 356 페이지STATA과 통계 그는이 문제에 대한 자세한 깊이로 전환되지 않지만 로렌스 해밀턴, 클러스터 분석의 "필수"측면으로 변수를 표준화 언급한다.


2

공간 군집 분석은 지리적으로 참조 된 관측 값을 사용하며 탐색 분석으로 제한되지 않는 군집 분석의 하위 집합입니다.

실시 예 1

공정한 선거구를 만드는 데 사용될 수 있습니다.

실시 예 2

국소 공간 자기 상관 척도는 AMOEBA 클러스터링 방법 에 사용됩니다 . Aldstadt와 Getis는 결과 클러스터를 사용 하여 가설을 테스트하기 위해 공간 회귀 로 지정할 수있는 공간 가중치 행렬을 만듭니다 .

Aldstadt, Jared 및 Arthur Getis (2006)“AMOEBA를 사용하여 공간 가중치 행렬 생성 및 공간 군집 식별”을 참조하십시오. 지리적 분석 38 (4) 327-343

실시 예 3

임의의 기준 주어지면 무작위로 성장하는 지역을 기반으로 한 클러스터 분석 은 학교 출석 구역 또는 선거구와 같은 제도 ​​구역 디자인의 불공평성을 나타내는 확률 적 방법으로 사용될 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.