클러스터의 모양을 측정하는 방법?


14

이 질문은 잘 정의되지 않았지만 일부 클러스터는 타원형이거나 낮은 차원 공간에있는 반면 다른 클러스터는 비선형 모양 (2D 또는 3D 예)이 있습니다.

클러스터의 비선형 성 (또는 "모양") 측정 값이 있습니까?

2D 및 3D 공간에서는 클러스터의 모양을 보는 것이 문제가되지 않지만 더 높은 차원 공간에서는 모양에 대해 말하는 것이 문제가됩니다. 특히 볼록한 클러스터의 측정 방법이 있습니까?

나는 사람들이 클러스터에 대해 이야기하지만 아무도 (높은 차원의 공간에서) 클러스터를 볼 수없는 많은 다른 클러스터링 질문 에서이 질문에 영감을 받았습니다. 또한 2D 곡선에 대한 비선형 성 측정 값이 있음을 알고 있습니다.


1
en.wikipedia.org/wiki/Topological_data_analysis 가 도움이 될 수 있습니다.
ziyuang

1
아마도 당신은 당신의 목적에 맞게 압축 의 개념을 조정할 수 있습니다.
user12719

답변:


4

나는 Gaussian Mixture 모델 (GMM)을 좋아 합니다.

그들의 특징 중 하나는 프로 빗 도메인 에서 그것들이 단편적인 보간 기처럼 행동한다는 것입니다. 이것의 한 가지 의미는 대체 근사치 인 범용 근 사기처럼 작동 할 수 있다는 것입니다. 이는 일부 기준이 충족되는 한 로그 정규,와 이블 또는 미열 비 분석적 분포와 같은 비 가우시안 분포의 경우 GMM이 분포에 근접 할 수 있음을 의미합니다.

따라서 GMM을 사용하여 AICc 또는 BIC 최적 근사값의 매개 변수를 알고 있으면 더 작은 치수로 투영 할 수 있습니다. 회전시켜 근사 GMM 구성 요소의 주축을 볼 수 있습니다.

그 결과 3D 시청 시각 인식을 사용하여 고차원 데이터의 가장 중요한 부분을 볼 수있는 유익하고 시각적으로 접근 가능한 방법이 될 것입니다.

편집 : (확실히, whuber)

모양을 보는 몇 가지 방법이 있습니다.

  • 수단의 추세를 볼 수 있습니다. 대수 정규는 가우시안 시리즈에 의해 근사화되며, 가우스가 점점 가까워지고 진행에 따라 가중치가 작아집니다. 이 합계는 두꺼운 꼬리에 가깝습니다. n- 차원에서, 이러한 구성 요소의 순서는 로브를 만들 것입니다. 평균 (고차원으로 변환)과 방향 코사인 사이의 거리도 추적 할 수 있습니다. 이것은 훨씬 접근하기 쉬운 치수로 변환됩니다.
  • 축이 가중치, 평균의 크기 및 분산 / 공분산의 크기 인 3D 시스템을 만들 수 있습니다. 클러스터 수가 매우 많은 경우 서로 비교하여 볼 수 있습니다. 2k 측정 값이있는 50k 개의 부품을 각각 3D 공간에서 몇 개의 구름으로 변환하는 유용한 방법입니다. 원하는 경우 해당 공간에서 프로세스 제어를 실행할 수 있습니다. 가우스 혼합 모델의 구성 요소에 대한 가우스 혼합 모델 기반 제어를 사용하는 재귀는 부품 매개 변수에 적합합니다.
  • 클러 터 제거의 관점에서 볼 때 매우 작은 무게 나 공분산 당 무게 등으로 버릴 수 있습니다.
  • 아르 자형2
  • 거품이 교차 하는 것처럼 보일 수 있습니다. GMM 클러스터의 각 쌍 사이에 동일한 확률의 위치 (제로 Kullback-Leibler 발산)가 존재합니다. 해당 위치를 추적하면 해당 위치의 멤버십 확률로 필터링 할 수 있습니다. 분류 경계의 포인트를 제공합니다. 이렇게하면 "외로움 꾼"을 격리하는 데 도움이됩니다. 멤버 당 임계 값을 초과하는 이러한 경계 수를 계산하고 구성 요소 당 "연결성"목록을 얻을 수 있습니다. 위치 사이의 각도와 거리를 볼 수도 있습니다.
  • Gaussian PDF에서 주어진 난수를 사용하여 공간을 재 샘플링하고 그에 대한 기본 구성 요소 분석을 수행하고 고유 한 모양과 고유 값을 볼 수 있습니다.

편집하다:

모양은 무엇을 의미합니까? 그들은 특이성이 모든 좋은 의사 소통의 영혼이라고 말합니다. "측정"에 대해 무엇을 의미합니까?

그 의미에 대한 아이디어 :

  • 안구 표준 감각 / 일반적인 느낌. (매우 질적 인 시각 접근성)
  • GD & T 형상 (평면도, 동심도 등) 측정 (매우 정량적)
  • 숫자 (고유 값, 공분산 등)
  • 유용한 축소 치수 좌표 (GMM 매개 변수가 치수가 됨)
  • 감소 된 소음 시스템 (어떻게 부드럽게 만들어 제시)

"여러 가지 방법"의 대부분은 이에 대한 약간의 변형입니다.


3

다소 단순 할 수 있지만 각 클러스터에서 고유 값 분석을 수행하면 통찰력을 얻을 수 있습니다.

내가 시도하는 것은 클러스터에 할당 된 모든 포인트를 가져 와서 다변량 가우스로 맞추는 것입니다. 그런 다음 적합 공분산 행렬의 고유 값을 계산하고 플로팅 할 수 있습니다. 이를 수행하는 방법에는 여러 가지가 있습니다. 아마도 가장 유명하고 널리 사용되는 것을 주성분 분석 또는 PCA 라고 합니다.

고유 값 (스펙트럼이라고도 함)이 있으면 상대 크기를 검사하여 군집이 특정 차원에 어떻게 "확장"되어 있는지 확인할 수 있습니다. 스펙트럼이 덜 균일할수록 클러스터는 "시가 모양"이 많고 스펙트럼이 더 균일할수록 클러스터는 더 구형입니다. 고유 값이 얼마나 균일하지 않은지를 나타내는 일종의 메트릭을 정의 할 수도 있습니다 (스펙트럼 엔트로피?). http://en.wikipedia.org/wiki/Spectral_flatness를 참조하십시오 .

부작용으로, 주요 구성 요소 (큰 고유 값과 연관된 고유 벡터)를 검사하여 "시가 모양"클러스터가 데이터 공간에서 "어디"를 가리키는 지 확인할 수 있습니다.

당연히 이것은 임의의 클러스터에 대한 대략적인 근사치입니다. 클러스터의 점만 단일 타원체로 모델링하기 때문입니다. 그러나 내가 말했듯이 통찰력을 줄 수 있습니다.


+1 단순하고 아마도; 그러나 이것은 효과적이고 실용적으로 보입니다. 다변량 가우시안 피팅에는 이점이없는 것 같습니다. 클러스터 된 중심 클러스터링 데이터의 SVD 만 사용하십시오 (클러스터의 PCA 임).
whuber

@ whuber 예, 나는 그것들이 같은 일을하는 것으로 생각합니다! PCA는 그 과정을 구체적으로 구현하는 반면, 피팅은 이론이 말하는 것보다 더 적합합니다. 더 명확하게 답변을 편집하겠습니다.
lmjohns3 3

2

4C, ERiC 또는 LMCLUS와 같은 상관 클러스터링 알고리즘은 일반적으로 클러스터를 선형 매니 폴드로 간주합니다. 즉, d- 차원 공간에서 k- 차원 초평면. 글쎄, 4C와 ERiC의 경우 로컬로만 선형이므로 볼록하지 않을 수 있습니다. 그러나 그들은 여전히 ​​지역 차원이 축소 된 클러스터를 탐지하려고 시도합니다.

고차원 데이터에서 임의의 모양의 클러스터를 찾는 것은 매우 어려운 문제입니다. 특히, 검색 공간을 확장 할 수있는 차원의 저주 때문에 동시에 중요한 결과를 원할 경우 훨씬 더 큰 입력 데이터가 필요합니다 . 너무 많은 알고리즘은 그들이 찾은 것이 여전히 중요하거나 무작위 일 수 있는지 여부에주의를 기울이지 않습니다.

사실, 나는 고차원 공간에서 복잡한 클러스터의 비 볼록성의 볼록성을 생각하기 전에 해결해야 할 다른 문제가 있다고 생각합니다.

또한 볼록 껍질을 더 높은 차원으로 계산하는 복잡성을 살펴보십시오 ...

또한 호기심을 넘어서는 진정한 유스 케이스가 있습니까?


2

차원이 2 또는 3보다 크지 않은 경우 관심 클러스터를 2D 공간에 여러 번 투영하고 결과를 시각화하거나 2D 비선형 성 측정을 사용할 수 있습니다. 랜덤 프로젝션 http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf 방법으로 인해 이것을 생각했습니다 .

랜덤 프로젝션을 사용하여 인덱스를 작성하기 위해 차원을 줄일 수 있습니다. 이론은 두 점이 D 차원에서 가깝고 d를 사용하여 d 차원으로 무작위 투영을한다는 것입니다.

구체성을 위해 지구를 평평한 표면에 투영하는 것을 생각할 수 있습니다. 어떻게 계획하든 뉴욕과 뉴저지가 함께있을 것입니다.

이것이 당신에게 엄격하게 도움이 될 수 있는지는 모르겠지만 클러스터를 시각화하는 빠른 방법 일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.